Reconnaître la langue d'un texte

a marqué ce sujet comme résolu.

flopy78, vendredi 06 octobre 2023 à 19h33
Modifié par Taurre

Bonjour,

J’essaye de développer un programme qui détecte la langue d’un texte (uniquement l’anglais, pour l’instant). Je compte faire des statistiques sur l’enchainement des lettres pour pouvoir évaluer la probabilité que le texte étudié soit anglais (ou une autre langue, à l’avenir).

Je me heurte toutefois à un problème assez simple : je ne sais pas où trouver de longs textes en anglais pour constituer mes données statistiques…

Pourriez-vous me donner un tuyau ?

Merci d’avance,

@flopy78

06/10/23 à 19h33
Modifié

+0 -0

Amaury, vendredi 06 octobre 2023 à 19h42
Modifié

Salut !

Est-ce qu’un export de tous les articles de Wikipédia ferait un bon corpus ? Il y a pas mal d’articles bien longs. Des exports sont disponibles pour toutes les versions linguistiques de Wikipédia et des autres wikis de Wikimédia (Wiktionnaire, WikiNews, Wikiversité…).

06/10/23 à 19h42
Modifié

#JeSuisArius ⋅ Site perso, pro, et scientifique ⋅ Le Pitit Bac ⋅ Twitch : La Veille évolue… stay tuned ⋅ Morel Games : nos futurs jeux (ça reviendra…)

+0 -0

minirop, vendredi 06 octobre 2023 à 20h06

il y a aussi le projet Gutenberg

06/10/23 à 20h06

+0 -0

flopy78, vendredi 06 octobre 2023 à 21h57

Bonsoir,

Merci pour ces supers idées ! Je devrais pouvoir trouver mon bonheur là dedans.

Bonne soirée,

@flopy78

06/10/23 à 21h57

+1 -0

1e49ba0eba, samedi 14 octobre 2023 à 12h13

Est-ce qu’un export de tous les articles de Wikipédia ferait un bon corpus ?

Voir même juste l’ensemble des mots de wiktionnary, ce serait bien plus léger. J’imagine qu’il suffirait de compter la proportion de mot que tu retrouves dans chaque version du dictionnaire ?

14/10/23 à 12h13

+0 -0

etherpin, samedi 14 octobre 2023 à 20h14

on trouve facilement des listes de fréquence en anglais : bigrammes, trigrammes par exemple :
https://fr.sttmedia.com/frequences-de-syllabes-anglais
https://www.apprendre-en-ligne.net/crypto/stat/anglais.html
https://www.bibmath.net/crypto/index.php?action=affiche&quoi=chasseur/frequences_english

14/10/23 à 20h14

Il se faut s’entraider, c’est la loi de la nature. (Jean de La Fontaine, l’âne et le chien)

+0 -0

Connectez-vous pour pouvoir poster un message.
Connexion

Pas encore membre ?

Créez un compte en une minute pour profiter pleinement de toutes les fonctionnalités de Zeste de Savoir. Ici, tout est gratuit et sans publicité.
Créer un compte