Extraire le texte d'un PDF

Afin de générer un epub

Le problème exposé dans ce sujet a été résolu.

otini, jeudi 07 janvier 2021 à 19h22

Bonjour,

Je possède un PDF d’un livre qui est dans le domaine public. Il s’agit d’un scan avec OCR, donc c’est lourd et l’image est de mauvaise qualité mais on peut y sélectionner et copier du texte. Je souhaiterais créer une version propre au format EPUB du livre.

Pour commencer, auriez-vous un outil à recommander pour extraire tout le texte du PDF ? Je me doute qu’il y aura sans doute une correction manuelle à faire pour enlever les numéros de pages et distinguer les titres, etc.

Merci d’avance

07/01/21 à 19h22

Site web – SILE, un logiciel de typographie prometteur

+0 -0

otini, jeudi 07 janvier 2021 à 19h42

On dirait que j’ai posté trop vite… la commande pdftotext de la suite logicielle poppler permet de faire exactement ça.

07/01/21 à 19h42

Site web – SILE, un logiciel de typographie prometteur

+2 -0

tleb, vendredi 08 janvier 2021 à 15h37

Salut,

Dans le sujet, voici un outil qui englobe ripgrep et qui permet de faire de la recherche textuelle dans beaucoup de formats différents. Il expose du mieux possible le texte contenu dans chaque fichier : il extrait les archives et effectue une recherche récursive, il recherche au sein des PDF, des metadata de fichiers vidéos, des fichiers odt/docx et compagnie, etc.

Je n’en ai pas l’utilité mais ça peut servir à d’autres et ça se rapproche du sujet, un peu.

08/01/21 à 15h37

Carte des membres

+1 -0

Connectez-vous pour pouvoir poster un message.
Connexion

Pas encore membre ?

Créez un compte en une minute pour profiter pleinement de toutes les fonctionnalités de Zeste de Savoir. Ici, tout est gratuit et sans publicité.
Créer un compte