Appareil pour lire des documents à l'oral

anonyme, mercredi 02 mars 2016 à 01h22
Modifié

Bonsoir,

Je me demandais si il existait des appareils capables de voir et d'analyser des documents papier avec une caméra et de les lire à l'oral avec de la synthèse vocale ? Ce serait impeccable pour des personnes malvoyantes. J'ai cherché un petit peu sur le web, je n'ai rien trouvé de tel.

Edit : en fait j'en ai trouvé quelques-uns, par exemple ici, mais ça coûte 2000 balles… Je pense qu'on peut faire pareil pour dix fois moins cher, non ? …

Si ça n'existe pas, pensez-vous à des difficultés particulières pour quelqu'un qui voudrait en fabriquer un ? Cela ferait intervenir de l'OCR (Optical Character Recognition), qui semble être bien maîtrisée avec par exemple la librairie tesseract ; et de la synthèse vocale, qui semble aussi être déjà répandue avec par exemple les librairies freeTTS ou festival speech synthesis system.

L'idéal serait de mettre un peu d'intelligence là-dedans pour que la lecture soit ergonomique. Par exemple le programme détecterait les grandes zones du document, et lirait les choses dans l'ordre de leur taille de police, etc. Mais ça ce n'est pas techniquement compliqué, il suffit d'y réfléchir un peu ; si les aspects OCR et synthèse vocale sont gérés ça ne représente plus que 10% à faire !

Bref voilà j'ai eu cette idée, qu'en pensez-vous, avez-vous des suggestions, avez-vous déjà réalisé ou vu un tel appareil, avez-vous des conseils à me donner ? Je prends tout.

02/03/16 à 01h22
Modifié

+2 -0

AmarOk, mercredi 02 mars 2016 à 08h18

ehe, ehe, ehe. Comme ça tombe bien. C'est exactement un de mes projets… en pause.

Première note, peu de téléagrandisseurs possèdent une fonction lecture.

J'avais fait un sujet sur le forum (pas à jour) https://zestedesavoir.com/forums/sujet/2900/open-video-magnifier/

En effet, c'est faisable pour un budget de 300€ (en comptant la fabrique du support matériel, l'électronique, etc). La majorité du budget vient de la caméra, qui doit être plutôt de bonne qualité (~100€ à elle seule) parce que l'outil est aussi adapté aux malvoyants et donc on arrive souvent à un zoom x8, x16 voir x24.

Comme OCR j'utilise GOCr qui m'a donné les meilleurs résultats en tests, comme synthèse vocale j'étais parti sur du espeak, même s'il y a vraiment un gros trou au niveau synthese vocale libre.

Malheureusement, tu as oublié une étape plutôt essentielle, car non, l'OCR ne s'applique pas . Imagine 2 secondes la vision de ta caméra. Plusieurs possibilités :

Tu ne vois pas toute la largeur d'un paragraphe, dans ce cas, impossible de lire un texte logique, l'utilisateur est perdu.
Tu testes de lire un livre. Tu vois les 2 pages avec la pliure au milieu. Comment tu gères la lecture de l'OCR.
Autre cas problématique : Un article de journal. Ton OCr n'aura aucune chance de trouver l'ordre de lecture seul.

Donc voilà pour commencer.

02/03/16 à 08h18

+3 -0

anonyme, mercredi 02 mars 2016 à 14h49

Merci pour ta réponse.

J'ai sous-estimé la difficulté de l'OCR, en effet. J'ai regardé ton topic et la clusterisation est une bonne idée, je pense qu'on peut aussi se baser sur la typographie, surtout pour un article de journal : une fois les clusters définis, on les lit dans un ordre qui dépend de leur typographie et de leur position. En fait il faut se demander comment nous humains on fonctionne, quand on voit un article de journal : on lit d'abord le titre, qui généralement est vers le haut et possède la police la plus grande ; puis l'abstract s'il y en a un (ici en-dessous et en italique), puis le texte. Si les clusters sont allongés en hauteur, on les lit de gauche à droite, sinon de haut en bas. Des choses comme ça. Je suis persuadé qu'il est possible de mettre au point un algorithme assez simple et assez tout-terrain quand même.

Au pire moi je vise essentiellement un type de document bien précis : les documents administratifs, type relevés de banque, courriers, etc. En se limitant à un type donné de document on peut probablement simplifier pas mal le problème.

Un problème plus difficile que tu as mentionné c'est si tout le document n'est pas dans le champ de vision, ou si des parties sont masquées, dans l'ombre, ou illisibles. Mais dans un premier temps on peut négliger ce problème et compter sur l'utilisateur pour bien mettre son document entièrement dans le champ. On pourra utiliser par exemple une plaque de dimensions bien définies, par exemple A3, avec des bords qui se repèrent au toucher.

Je me doutais que le plus cher serait la caméra qui doit être de bonne qualité. Tu avais pu déterminer les caractéristiques minimales nécessaires quand tu étais sur ce projet, ou pas ? Genre la focale, le nombre de pixels, …

02/03/16 à 14h49

+0 -0

AmarOk, mercredi 02 mars 2016 à 19h21

Yeap, des algos naïfs peuvent marcher. Des techniques autres existent, mais je ne vais pas expliquer ici vu que dans ce cas tu dis avoir un type particulier. Fait tout de même attention, il peut y avoir pas mal de formes de documents administratifs :).

Au final, passons sous silence toute la partie matérielle, j'y reviendrais plus loin. Un truc que tu peux faire sans te poser de question de prix, c'est est-ce que ça marche. Pour ça, tu as au final juste besoin d'un scanner pour avoir tes documents administratifs de qualité optimales ou des photos de tes documents (ce qui s'approche de ta caméra, donc le panel de test est meilleur pour le projet). Ça te donne la possibilité de faire toute la partie logicielle avant "sans probleme" et surtout effectuer pas mal de tests. Tu vas te rendre compte assez vite d'un paramètre qui modifie énormément les résultats : la luminosité. Le mieux c'est d'éviter la projection d'ombre sur le document (la caméra peut avoir un peu de mal à faire le focus, etc) (ça s'évite avec une lampe bien orienté vers le document à coté de ta caméra).

Passons maintenant au matériel. Alors la, c'est surtout une discussion avec toi et l'utilisateur. Perso j'ai fait dans le général, ma liseuse n'est pas censé etre portable (assez imposante), pas autonome (il faut un pc pour la partie soft), boitier de controle multi-handicap (icones clairs, bouttons avec encoche, positionnement du plateau, etc). D'ailleurs il faut que je repense ça entièrement mais bref, pas le sujet. En gros les questions c'est :

La partie soft, elle est où ? PC/carte spécialisée ?
Comment on fait l'affichage de sortie ?
Comment l'utilisateur positionne le doc et comment il règle la machine le mieux possible ?
Quels controles sont possibles ?
Document fixe ou on peut le glisser (pratique pour un malvoyant avec zoom)
etc.

Pour la caméra, elle doit pouvoir faire un focus à moins de 30 cm sans soucis, voir le maximum de document possible de manière lisible. Si elle s'adresse aussi à des malvoyants, le mieux et de pouvoir faire un zoom x24 sans trop de pixelisation (des algos marchent très bien pour refaire du beau texte, ou y a encore la technique de n'afficher que la sortie de l'OCR, donc plus besoin de zoom, c'est fait de manière logicielle, mais disons que c'est pratique). Si la caméra/le document bouge, il faut que le mouvement soit agréable à l'écran. Après ça dépend des besoins :).

Voilà pour avancer un peu.

02/03/16 à 19h21

+0 -0

Ca existe ?

Pas encore membre ?