Extraire les données des factures EDF

Sur un tableur

a marqué ce sujet comme résolu.

Hello tout le monde

Je savais pas trop où poster, alors c’est venu ici parce que je pense que mon problème nécessitera sûrement un peu de VBA.

Dans le cadre de mon boulot, je fais du suivi des consommations énergétiques des bâtiments de diverses communes. Pour faire ce suivi, on rentre une grosse partie des infos fournies par EDF sur les factures PDF dans notre tableur de suivi.

Et c’est long. Très long. Y a 27 communes à gérer, chacune ayant ses propres bâtiments, ce qui génèrent tout un tas de facture.

Dans les valeurs utiles, on trouve le numéro de facture, la date d’émission, la date de début de période, la date de fin de période, la conso totale, le coût HT de l’élec, le coût HT de la part fixe de l’abonnement, le coût total TTC, le coût total HTVA, le montant de la TVA, le coût des taxes locales, de la CSPE, de la CTA, les débuts et fin d’index, et la puissance maximum atteinte.

Plutôt que de faire des copier-coller, on aimerait bien pouvoir extraire les valeurs utiles dans une ligne de tableur, ce qui nous permettrait ensuite de copier cette ligne dans notre tableau de suivi. On avait d’autres tableurs, mais ils n’ont jamais fonctionné très longtemps. Pour cause, EDF qui change la mise en page de ses factures.

Alors, j’ai voulu faire simple, avec un tableur dans lequel on copie-collerait tout le texte de la facture, et quelques formules ressortiraient les valeurs nécessaires. Malheureusement, la mise en page et la formulation varie pas mal en fonction de la présentation mais aussi en fonction de l’offre. En plus, c’est pas très souple parce que EDF s’amuse parfois à rajouter des infos, notamment en divisant des périodes en deux si il y a des changements de tarif.

Du coup, je ne sais pas si vous pourriez m’aider là-dessus ?

D’ailleurs, j’ai précisé excel parce qu’on bosse dessus, mais si on trouve que sur du LibreOffice, y aura pas de soucis on le fera installer.

Merci les zesteux

+0 -0

Paperwork fait su scan + l’OCR. Les informations extraites sont sous forme d’un document HTML. Tu as chaque mot reconnu dans sa propre span et un attribut qui a l’air de contenir sa bounding box.

A partir de là, tu dois pouvoir essayer de faire des groupements sémantiques en regroupant des données proches horizontalement parlant (une sorte de clustering).

Sinon, faut attaquer directement Tesseract/Pyocr.

+0 -0

Merci pour la réponse @Davidbrcz

Nos factures sont déjà au format PDF, donc on peut déjà en avoir le texte.

Pour le reste, j’ai pas pu essayer, j’ai pas les droits d’installation sur mon PC pro. Par contre, on a un autre CEP en France qui a fait un tableur pour cet usage. Il est assez puissant, et en regardant les macros je me suis bien rendu compte que pour le coup c’était en-dehors de mes compétences. Par contre, je peux le modifier pour inclure les données dont on a besoin nous.

+0 -0
Connectez-vous pour pouvoir poster un message.
Connexion

Pas encore membre ?

Créez un compte en une minute pour profiter pleinement de toutes les fonctionnalités de Zeste de Savoir. Ici, tout est gratuit et sans publicité.
Créer un compte