Extraire le texte d'un PDF

Afin de générer un epub

Le problème exposé dans ce sujet a été résolu.

Bonjour,

Je possède un PDF d’un livre qui est dans le domaine public. Il s’agit d’un scan avec OCR, donc c’est lourd et l’image est de mauvaise qualité mais on peut y sélectionner et copier du texte. Je souhaiterais créer une version propre au format EPUB du livre.

Pour commencer, auriez-vous un outil à recommander pour extraire tout le texte du PDF ? Je me doute qu’il y aura sans doute une correction manuelle à faire pour enlever les numéros de pages et distinguer les titres, etc.

Merci d’avance :)

Salut,

Dans le sujet, voici un outil qui englobe ripgrep et qui permet de faire de la recherche textuelle dans beaucoup de formats différents. Il expose du mieux possible le texte contenu dans chaque fichier : il extrait les archives et effectue une recherche récursive, il recherche au sein des PDF, des metadata de fichiers vidéos, des fichiers odt/docx et compagnie, etc.

Je n’en ai pas l’utilité mais ça peut servir à d’autres et ça se rapproche du sujet, un peu. :ange:

Connectez-vous pour pouvoir poster un message.
Connexion

Pas encore membre ?

Créez un compte en une minute pour profiter pleinement de toutes les fonctionnalités de Zeste de Savoir. Ici, tout est gratuit et sans publicité.
Créer un compte