Corriger un texte automatiquement

Le problème exposé dans ce sujet a été résolu.

Bonjour,

Je monte actuellement une liseuse pour malvoyant (libre). C'est un dire un objet pour lire les magazines/journaux. Actuellement, l'électronique est presque finie, la partie OpenCV aussi, les fonctionnalités pour malvoyants fonctionnent, et il faut que je fasse la structure.

Je souhaite que la liseuse aide aussi les personnes aveugles, Je pense donc embarqué un OCR. J'ai donc quelques étapes :

  • Récupérer l'image (facile)
  • Découper l'image en groupes de textes (j'utilise k-means, ça donne des résultats basiques, mais fonctionne)
  • Hiérarchiser les groupes de textes (pas encore fait), pour donner un ordre de lecture, pratique pour les journaux
  • OCR (j'utilise GOCR pour le moment.)
  • Corriger la sortie (d'ou ce sujet)
  • balancer le texte à une synthese vocale (festival surement)

Je me demande donc comment faire au mieux l'étape de correction, sans retour humain (ce n'est pas à l'aveugle de corriger le texte). Pour l'instant mes pistes sont :

  • Automatiser un correcteur type aspell. (sale)
  • Embarquer un correcteur comme ceux de libreoffice (GRAC, After the Deadline, etc).
  • En développer un (long, et je préfère me concentrer sur d'autres trucs plus importants et je déteste réinventer la roue)

Quelqu'un a déjà réalisé un truc semblable ? Ou a une idée ? Que pensez vous des 3 idées ?
Personnelement, embarquer after the deadline me semble le plus logique.

Merci d'avance !

+3 -0

J'ai vu il n'y a pas longtemps un projet sur Ulule : il s'agit de Grammalecte qui est pas mal utilisé semble-t-il, et qui intègre aussi de la correction grammaticale. Je ne sais par contre pas s'il est facile à intégrer (je crois que c'était justement le but de l'appel au financement participatif).

Sinon, bravo pour ton projet qui semble bien intéressant.

Yeap je connais le projet grammalecte (d'ailleurs ça serait en gros ma possibilité 2). Le probleme de grammalecte, c'est que c'est pour la langue française :)

Pour le moment en gros, mes 2 solutions préférés sont :

  • Embarquer After the deadline. Mais c'est un poil overkill en partant du principe que le texte de base vient d'un journal et ne contient que peu d'erreurs.
  • Développer un petit systeme tout con se basant sur la distance par rapport à un dictionnaire. Le principal probleme c'est que 40% des fautes de GOCr c'est un espace en trop. Donc dans le cas de "salut-> sa lut", "sa" et "lut" seront modifiés. Pour pallier ce probleme, Davidbrcz a eu une idée pas conne, combiner les mots. En gros si je vois "le chien", "lechien" n'est pas dans le dictionnaire, donc on ne fusionne pas. Dans le cas de "sa lut", "salut" est dans le dictionnaire donc on fusionne. Un autre probleme de cette méthode reste les verbes conjugués non présents dans le dictionnaire, du coup la méthode va vite devenir lourde.
Connectez-vous pour pouvoir poster un message.
Connexion

Pas encore membre ?

Créez un compte en une minute pour profiter pleinement de toutes les fonctionnalités de Zeste de Savoir. Ici, tout est gratuit et sans publicité.
Créer un compte