Reconnaître la langue d'un texte

a marqué ce sujet comme résolu.

Bonjour,

J’essaye de développer un programme qui détecte la langue d’un texte (uniquement l’anglais, pour l’instant). Je compte faire des statistiques sur l’enchainement des lettres pour pouvoir évaluer la probabilité que le texte étudié soit anglais (ou une autre langue, à l’avenir).

Je me heurte toutefois à un problème assez simple : je ne sais pas où trouver de longs textes en anglais pour constituer mes données statistiques…

Pourriez-vous me donner un tuyau ?

Merci d’avance,

@flopy78

+0 -0

Salut !

Est-ce qu’un export de tous les articles de Wikipédia ferait un bon corpus ? Il y a pas mal d’articles bien longs. Des exports sont disponibles pour toutes les versions linguistiques de Wikipédia et des autres wikis de Wikimédia (Wiktionnaire, WikiNews, Wikiversité…).

+0 -0
+0 -0
Connectez-vous pour pouvoir poster un message.
Connexion

Pas encore membre ?

Créez un compte en une minute pour profiter pleinement de toutes les fonctionnalités de Zeste de Savoir. Ici, tout est gratuit et sans publicité.
Créer un compte