Utilise-t-on plutôt des mots courts ou longs ?

Fréquence des mots en fonction de leur longueur dans des textes en français

Suite à un commentaire lors d’une discussion sur l’estimation des temps de lecture, j’ai voulu observer par moi-même la distribution des mots en fonction de leur taille dans des textes écrits en français.

Variabilité liée au choix de l'échantillon
Variabilité liée au style
Statistiques générales
Données et outils

Variabilité liée au choix de l'échantillon

J’ai commencé par comparer les trois premiers chapitres de L’Assommoir de Zola.

Il s’agit de trois chapitres d’une même œuvre par un seul auteur. Cela donne une idée de la variabilité liée au choix de l’échantillon. Chaque chapitre fait quelques dizaines de kilo-octets.

On observe assez peu de variabilité, ce qui indique que la taille de l’échantillon semble suffisamment grande pour mon usage. Le pic remarquable correspond aux mots de deux lettres (tels que un, et, de, es, ai, …)

Comparaison des trois premiers chapitres de *L’Assommoir* de Zola.

Variabilité liée au style

J’ai voulu ensuite comparer différents auteurs. Les heureux élus sont Zola, Voltaire, Proust et Dwayn.

L’idée derrière cette comparaison est de voir la variabilité liée au style des auteurs. Il s’agit d’une comparaison pour des extraits de taille approximativement comparables. Le plus petit texte est celui de Voltaire (environ 30 ko), le plus long celui de Proust (environ 400 ko).

La variabilité n’est pas vraiment notable, on peut donc dire que chaque auteur utilise des mots dont la longueur est représentative du français écrit usuel.

Comparaison de différents auteurs, de différentes époques.

Statistiques générales

La longueur moyenne d’un mot est de 4,8 caractères.

Le mot médian a une longueur de 4 caractères.

Ses valeurs sont sujettes à prendre avec précaution puisque la séparation en mots est faite avec plein de défauts (voir la section suivante).

Données et outils

Données

J’ai utilisés les sources suivantes :

L’Assommoir sur Wikisource,
Candide sur Wikisource
À l’ombre des jeunes filles en fleurs sur Wikisource,
Bilan : l’Ombre du Mordor & l’Ombre de la Guerre sur Zeste de Savoir.

Outils

J’ai utilisé un script Python (ci-dessous) pour réaliser ces analyses rudimentaires. Il a des défauts assez majeurs, comme le fait d’ignorer la ponctuation et d’ignorer les apostrophes pour couper les mots.

import matplotlib.pyplot as plt


# TODO: improve error management
def read_text(text_file):
    """Read a text in a text file."""
    with open(text_file, 'r') as text_file:
        text = text_file.read()
    return text


# TODO: manage punctuation
# TODO: improve to also split at quotes
def split_into_words(s):
    """Split a string into words."""
    return str.split(s)


def count_words_by_length(text):
    """Count the number of words of each lengths."""
    words = split_into_words(text)
    print(words)
    words_length = list(map(len, words))
    lengths = list(range(min(words_length), max(words_length) + 1))
    counts = []
    for i in range(len(lengths)):
        counts.append(words_length.count(lengths[i]))
    return lengths, counts


def counts_to_frequencies(lengths, counts):
    total = sum(counts)
    frequencies = [count/total for count in counts]
    return lengths, frequencies


def plot_distr(lengths, frequencies, label):
    """Plot the frequencies of words per length for a text."""
    plt.figure()
    plt.plot(lengths, frequencies)
    plt.xlabel('Longueur (caractères)')
    plt.ylabel('Fréquence')
    plt.title('Distribution du nombre de mots par longueur')
    plt.legend([label])
    plt.show()


def plot_distr_compare(lengths_freqs_label_list):
    """Plot the frequencies of words per length for many texts."""
    plt.figure()
    lengths, freqs, labels = zip(*lengths_freqs_label_list)
    for i in range(len(lengths)):
        plt.plot(lengths[i], freqs[i])
    plt.xlabel('Longueur (caractères)')
    plt.ylabel('Fréquence')
    plt.title('Distribution des mots par longueur')
    plt.legend(labels)
    plt.show()


if __name__ == '__main__':
    # input_files = ["zola-assommoir-chap1.txt", "zola-assommoir-chap2.txt", "zola-assommoir-chap3.txt"]
    # labels = ["L'Assommoir, chap. 1", "L'Assommoir, chap. 2", "L'Assommoir, chap. 3"]

    input_files = ["proust-jeunes_filles_fleurs_chap1.txt", "zola-assommoir-chap1.txt", "voltaire-candide-chap1-5.txt", "dwayn-mordor.txt"]
    labels = ["Proust, À l'ombre des jeunes filles [...], chap. 1", "Zola, L'Assommoir, chap. 1", "Voltaire, Candide, chap. 1-5", "Dwayn, Le bilan : l'Ombre du Mordor [...]"]

    sets = []
    for file, label in zip(input_files, labels):
        text = read_text(file)
        l, c = count_words_by_length(text)
        l, f = counts_to_frequencies(l, c)
        sets.append((l, f, label))

    plot_distr_compare(sets)

26 commentaires

qwerty, dimanche 21 janvier 2018 à 16h04

Concernant l’analyse lexicale, je conseille souvent l’excellent site http://voyant-tools.org/, si cela branche d’autres personnes.

21/01/18 à 16h04

La tero estas nur unu lando | Géographe de service | Cliquez 👍 pour dire merci

+2 -0

Aabu, dimanche 21 janvier 2018 à 16h25

Ton lien ne répond pas correctement, mais j’ai trouvé une alternative : http://voyant.tools.huma-num.fr/.

21/01/18 à 16h25

+0 -0

qwerty, dimanche 21 janvier 2018 à 16h43

Vu que c’est un logiciel libre, c’est une autre instance :-)

21/01/18 à 16h43

La tero estas nur unu lando | Géographe de service | Cliquez 👍 pour dire merci

+0 -0

Holosmos, dimanche 21 janvier 2018 à 16h59

Chouette étude !

21/01/18 à 16h59

+2 -0

melepe, dimanche 21 janvier 2018 à 17h34

Au début je me suis demandé quel mot pouvait bien faire 39 caractères, puis je me suis souvenu de Pangloss.

ça me fait penser à la loi de Zipf et cette vidéo que j’ai vue pas plus tard que ce matin :

21/01/18 à 17h34

+7 -0

firm1, dimanche 21 janvier 2018 à 19h14

Intéressant comme étude. Du coup ça a piqué ma curiosité. Je me demande maintenant si la courbe obtenue rejoins celle du dictionnaire Français.

Autrement dit, existe il une corrélation entre la taille des mots utilisés en général dans un texte et la taille des mots à disposition dans la langue Française ?

21/01/18 à 19h14

Tuto: Réussir un entretien | Articles : le Big Data / Elasticsearch / Continuous Delivery | Projet : Zest Writer

+2 -0

entwanne, dimanche 21 janvier 2018 à 19h49

Je viens d’extraire une liste de tous les mots depuis le TLFi, quelque peu filtrée pour supprimer les lignes qui ne contenaient pas de lettres (genre ! ou }). Ça me fait un total de 365742 mots pour la langue française.

La courbe est beaucoup plus « simple » que celle exposée dans cet article, et le pic un peu plus loin. Les mots font 8,5 caractères en moyenne, pour une médiane de 8.

Tous les éléments pour reproduire l’expérience : https://gist.github.com/anonymous/fe0b085de0d82fa7ed5d72783d0f5b97

21/01/18 à 19h49

entwanne — @entwanne — Un zeste de Python — La POO en Python — Notions de Python avancées — Les secrets d’un code pythonique

+6 -0

Holosmos, dimanche 21 janvier 2018 à 19h55

Damn’, elle est belle cette gaussienne <3

21/01/18 à 19h55

+4 -0

melepe, dimanche 21 janvier 2018 à 20h09
Modifié

@entwanne : a priori, la différence entre ton graphe et celui d’Aabu provient du fait qu’Aabu prend en compte la multiplicité des mots, et comme les mots courts sont beaucoup plus utilisés que les mots longs, on observe un décalage vers la gauche dans ses mesures par rapport aux tiennes.

Je pense que si tu pondères les mots par leur fréquence, tu devrais avoir des résultats beaucoup plus proches.

Edit : ouah il y a des mots chelous dans le dump du TLFi O_o

21/01/18 à 20h09
Modifié

+2 -0

entwanne, dimanche 21 janvier 2018 à 20h14

@melepe, je répondais en fait au message de firm1, qui cherchait à comparer les résultats d’Aabu avec la longueur de tous les mots de la langue française. Donc les courbes ne devaient pas nécessairement se confondre, c’est justement la différence entre les deux qui pouvait intéresser.

Appliquer aux mots leur fréquence reviendrait effectivement aux statistiques établies par Aabu.

21/01/18 à 20h14

entwanne — @entwanne — Un zeste de Python — La POO en Python — Notions de Python avancées — Les secrets d’un code pythonique

+4 -0

Demandred, dimanche 21 janvier 2018 à 21h02

@Aabu Merci du coup de confirmer mon commentaire ! A voir ce que ça change in fine dans le calcul des durées de lectures…

21/01/18 à 21h02

“Your manuscript is both good and original. But the part that is good is not original, and the part that is original is not good.” Samuel Johnson

+0 -0

Holosmos, dimanche 21 janvier 2018 à 21h08

Ça dépend de ce qu’on compare, mais par contre, c’est toujours la moyenne qui est significative.

Si on cherche à renouveler l’estimation du temps de lecture, il n’y aura pas besoin de faire un nouveau paramètre de passage du nombre de caractères au nombre de mots, il suffit de faire un produit par la moyenne

21/01/18 à 21h08

+4 -0

elegance, dimanche 21 janvier 2018 à 23h54

La longueur des mots ne permet pas de différencier un auteur d’un autre auteur… Quid de la longueur des phrases (nombre de mots de chaque phrase) ? Ou du nombre de mots entre 2 symboles de ponctuation ?

21/01/18 à 23h54

+2 -0

KFC, lundi 22 janvier 2018 à 09h07

Essaye sur l’anglais pour comparer. Il s’agit d’une langue assez primitive au sens ou il y a enormement de mots mono-syllabique. Je ne serais pas surpris s’il est possible de determiner la langue par la distribution de frequence de longueur de mots.
C’etait dans la liste des arguments en faveurs de l’apprentissage de l’anglais comme lingua-franca dans une conversation que j’ai eu il y a encore quelques jours.

22/01/18 à 09h07

« Kommunist Fried Chicken » | Macroeconomics: Three decades of intellectual regress

+2 -0

Renault, lundi 22 janvier 2018 à 09h23

C’etait dans la liste des arguments en faveurs de l’apprentissage de l’anglais comme lingua-franca dans une conversation que j’ai eu il y a encore quelques jours.

Tu as des sources ? Car personnellement je ne suis pas convaincu. L’anglais a tellement de défauts (accents très variés, passer de l’écrit à l’oral ou inversement est difficile et grammaire peu homogène du fait que c’est une langue avec un gros poids historique).

Par contre, une impression que j’ai c’est que l’anglais permet un débit de parole très élevé. Ce qui serait d’ailleurs un inconvénient pour les débutants.

22/01/18 à 09h23

Amateur de Logiciel Libre et de la distribution GNU/Linux Fedora. #JeSuisArius

+2 -0

qwerty, lundi 22 janvier 2018 à 09h31

Essaye sur l’anglais pour comparer. Il s’agit d’une langue assez primitive au sens ou il y a enormement de mots mono-syllabique. Je ne serais pas surpris s’il est possible de determiner la langue par la distribution de frequence de longueur de mots.

C’est surtout un défi de mettre en page des textes multilingue : français, anglais… Ce sont pas les mêmes proportions de texte, le français, pour le même contenu, prend plus de place.

22/01/18 à 09h31

La tero estas nur unu lando | Géographe de service | Cliquez 👍 pour dire merci

+0 -0

SpaceFox, lundi 22 janvier 2018 à 09h46

Essaye sur l’anglais pour comparer. Il s’agit d’une langue assez primitive au sens ou il y a enormement de mots mono-syllabique. Je ne serais pas surpris s’il est possible de determiner la langue par la distribution de frequence de longueur de mots.
C’etait dans la liste des arguments en faveurs de l’apprentissage de l’anglais comme lingua-franca dans une conversation que j’ai eu il y a encore quelques jours.

KFC

Et l’argument est complètement fallacieux, sinon les langues à mots mono-syllabiques seraient des langues de travail de fait. Sauf que… ce n’est pas le cas. Le vietnamien, par exemple, est dans ce cas et est difficile à apprendre.

La notion même de « mot » n’a pas spécialement de sens en réalité, surtout si on va vers les langues agglutinantes. Une prof d’allemand m’expliquait qu’en allemand, il n’y a pratiquement pas de mot de plus de deux syllabes : les trucs écrits sans espace qui font plus de deux syllabes sont en fait composés de plusieurs sous-mots (et soit c’est une décomposition directe, comme Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz, soit c’est « un mot » dans le dictionnaire mais décomposable).

22/01/18 à 09h46

Les textes de SpaceFox & Lisa Refur – Un Renard en Corée – Un renard au Japon – @spacefox@mastodon.spacefox.fr

+4 -1

KFC, lundi 22 janvier 2018 à 10h50
Modifié

L’argument n’est pas fallacieux du tout, il est juste incomplet pour expliquer l’adoption de l’anglais (ne serait-ce que l’influence de l’empire britanique, du peu de lettres de l’alphabet latin, etc. a tout hasard: C’etait dans la liste des argumentS en faveurs de l’apprentissage de l’anglais comme lingua-franca). Mais est certainement moins fallacieux que de demonter une hypothese par un contre-example dans un sujet aussi multi-facteurs que celui-ci. Par exemple, il est fallacieux de dire que l’un des arguments avances est fallacieux parce que le vietnamien est mono-syllabique mais pas une linga-franca… alors qu’il y a 10 000 facteurs obvious (s’il faut t’en citer: alphabet degueulasse, 6 tons avec phonologie en generale difficile pour les occidentaux) qui font que le vietnamien ne peut pas etre une lingua franca et qui compense largement la facilite d’apprentissage apportee par le mono-syllabique.

L’important n’est pas qu’un mot soit compose de plusieurs sous-mots pour un primo-apprenant mais qu’il puisse voir la separation entre les mots. Desole mais savoir que Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz est compose de mots pratiquement tous mono-syllabiques ne m’aide pas a le prononcer, ni a voir les structures et l’organisation des mots.

Tu as des sources ? Car personnellement je ne suis pas convaincu. L’anglais a tellement de défauts (accents très variés, passer de l’écrit à l’oral ou inversement est difficile et grammaire peu homogène du fait que c’est une langue avec un gros poids historique).

C’etait une discussion avec un linguiste et docteur en neuroscience. Le plus interessant c’etait surtout le pourquoi la langue est toujours autant monosyllabique par rapport aux langues voisines. Il est sur que l’anglais correct n’est pas plus facile que le francais ou d’autres langues mais la courbe d’apprentissage offerte est bien plus aisee que l’allemand, le francais ou d’autres langues qui auraient pu s’imposer d’une maniere ou d’une autre. Si tu prends l’anglais pour la communication internationnale, c’est probablement l’un des languages les plus simples: peu de vocabulaire pour s’exprimer, vocabulaire monosyllabique, peu d’inflexion, peu de regles de grammaires, structures grammaticales parmi les plus communes aux autres langues. Rajoute le poids de l’empire et l’influence culturelle americaine, et c’est assez facile de voir pourquoi elle a pu s’imposer. Apres, je suis d’accord que la prononciation et l’accentuation est difficile, mais OSEF, je parlais de lingua franca par d’un anglais londonien litteraire.

22/01/18 à 10h50
Modifié

« Kommunist Fried Chicken » | Macroeconomics: Three decades of intellectual regress

+0 -0

Gabbro, lundi 22 janvier 2018 à 11h04
Modifié

T’es sur de vouloir parler de la prononciation pour expliquer l’importance de l’anglais ?

À part quelques pièges avec les sch / ch, mais qui n’empêcheront pas un germanophone de te comprendre, l’allemand se prononce comme il s’écrit. C’est parfois dure à prononcer, mais on n’a pas à se poser la question du comment ça se prononce.

L’anglais est une misère de ce point de vue là (peu de correspondance écrit - prononciation).

22/01/18 à 11h04
Modifié

Il y a bien des façons de passer à l’acte. Se taire en est une. Attribué à Jean-Bertrand Pontalis

+6 -0

SpaceFox, lundi 22 janvier 2018 à 11h12

alors qu’il y a 10 000 facteurs obvious (s’il faut t’en citer: alphabet degueulasse, 6 tons avec phonologie en generale difficile pour les occidentaux) qui font que le vietnamien ne peut pas etre une lingua franca

Ton argument est complètement franco-centrée et/ou occidental-centré. La majorité des langues du monde sont des langues tonales. Le français est très répandu malgré une grammaire délicate, une orthographe décorelée de l’écrit (mais moins que l’anglais), une phonologie absconse (pas moins de 16 voyelles : a, ɑ, e, ɛ, i, o, ɔ, u, y, ə, œ, ø, ɑ̃, ɔ̃, ɛ̃, œ̃ – dont pas moins de 4 nasales, là où des langues ont 5 voire 3 voyelles en tout). Le français devrait être parlé à peu près nulle part selon ces « facteurs évidents », et pourtant…

« Accessoirement », les occidentaux sont toute petite partie de la population mondiale.

L’anglais, le français, l’espagnol, le portugais, l’arabe ou le mandarin sont des langues véhiculaires aussi développées d’abord et avant tout à cause des empires coloniaux qui les ont imposées un peu partout, dans des endroits où il n’y avait pas ou peu de cohérence linguistique préexistante. Ce qui les a imposé comme langue de travail et de commerce. Et ce sans la moindre considération pour leurs qualités ou problèmes intrinsèques. Ajoute aussi les considérations politiques, comme par exemple la tentative d’imposer l’hindi comme langue officiel d’Inde.

22/01/18 à 11h12

Les textes de SpaceFox & Lisa Refur – Un Renard en Corée – Un renard au Japon – @spacefox@mastodon.spacefox.fr

+4 -0

Renault, lundi 22 janvier 2018 à 11h13

peu de vocabulaire pour s’exprimer,

Dans quel sens ? L’anglais a un vocabulaire très riche, autant que le français même pour exprimer des choses courantes sans tomber dans la littérature.

C’est d’ailleurs un avantage et un défaut, l’anglais a un vocabulaire germanique et latin (un beau mix des deux) ce qui fait que la plupart des locuteurs européens trouveront un vocabulaire assez transparent avec leur langue maternelle. L’inconvénient est que cela ne simplifie pas les échanges entre communautés linguistiques. Typiquement j’ai bien moins de mal à comprendre un français, italien ou espagnol quand ils parlent anglais qu’un anglais natif ou un allemand. Car les locuteurs de langues latines vont piocher plus souvent dans un vocabulaire assez transparent vis à vis du français, contrairement aux locuteurs de langues germaniques qui vont le faire envers leur groupe linguistique.

C’est assez piégeur, cela peut vite donner un faux semblant de maitrise de la langue. Mais ça n’en reste pas moins un bel avantage pour débuter.

peu de regles de grammaires

C’est aussi un défaut, ça demande pas mal de gymnastique intellectuelle pour justement former et comprendre les phrases. L’avantage des règles c’est que cela donne un cadre qui simplifie la compréhension et diminue le risque de mauvaise interprétation.

Rajoute le poids de l’empire et l’influence culturelle americaine, et c’est assez facile de voir pourquoi elle a pu s’imposer.

C’est honnêtement je pense la meilleure explication. La lingua franca historique a évolué, il y a eu le le grec, le latin, le français et l’anglais. Je ne crois pas que l’anglais soit intrinsèquement meilleur dans cet exercice que le français, qu’il n’a détrôné que par l’augmentation de sa propre sphère d’influence (avec les USA en tête). Et il est possible qu’un jour l’anglais soit remplacé par autre chose.

Le français et l’anglais sont des langues complexes, pour des raisons différentes, et si on autorise de violer la grammaire et ses règles de base (car c’est difficile de respecter ces langues proprement, même pour des locuteurs natifs), on peut aussi outrepasser les difficultés du français (la moitié de la conjugaison ne sert à rien en dehors de la littérature par exemple). Bref, je ne suis pas convaincu par les arguments linguistiques vis à vis de l’anglais, l’histoire et la géographie ont je pense une importance bien plus essentielle dans ce phénomène.

22/01/18 à 11h13

Amateur de Logiciel Libre et de la distribution GNU/Linux Fedora. #JeSuisArius

+4 -0

SpaceFox, lundi 22 janvier 2018 à 19h31
Modifié

on peut aussi outrepasser les difficultés du français (la moitié de la conjugaison ne sert à rien en dehors de la littérature par exemple)

Renault

On pourrait aussi s’intéresser au cas de l’arabe, qui a réussi à s’imposer sur le maghreb et le moyen-orient en tant que langue écrite, mais qui n’existe pas réellement à l’oral, sinon sous la forme de dialectes plus ou moins intercompréhensibles et éloignés de l’arabe littéral (cf l’article Wikipedia, entre autres).

Les dialectes arabes

22/01/18 à 19h31
Modifié

Les textes de SpaceFox & Lisa Refur – Un Renard en Corée – Un renard au Japon – @spacefox@mastodon.spacefox.fr

+3 -0

LudoBike, lundi 22 janvier 2018 à 20h15

Ni lernu esperanton !

Bon la phrase précédente est assez explicite, je suis assez favorable à l’utilisation d’une langue construite pour des échanges internationaux, c’est quand même plus favorable que le globbish, et j’aime bien l’espéranto. Toutefois je connais ses problèmes notament d’européanocentrisme mais c’est vraiment une langue sympa à apprendre.

Et pour éviter que l’on ne torde mes propos, apprendre l’espéranto n’est pas un prétexte pour ne pas apprendre d’autres langues. Apprendre une langue c’est s’ouvrir à une culture, à une autre manière de formuler ses pensées et ça c’est cool donc tant que vous en avez la possibilité profitez-en.

22/01/18 à 20h15

« La Nature est un livre écrit en langage mathématique », Galilée

+2 -0

Renault, lundi 22 janvier 2018 à 20h34

J’avais oublié de commenter ce passage :

L’important n’est pas qu’un mot soit compose de plusieurs sous-mots pour un primo-apprenant mais qu’il puisse voir la separation entre les mots. Desole mais savoir que Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz est compose de mots pratiquement tous mono-syllabiques ne m’aide pas a le prononcer, ni a voir les structures et l’organisation des mots.

Que penses-tu des verbes à particule en anglais ? C’est le cas inverse, le découpage des mots à l’excès qui donne à des mots proches des sens totalement différents et sans lien.

Exemple :

to put away = ranger
to put by = mettre de côté
to put off = remettre à plus tard
to put out = éteindre
to put up = héberger quelqu’un

Pas terrible je trouve, source de nombreuses erreurs.

22/01/18 à 20h34

Amateur de Logiciel Libre et de la distribution GNU/Linux Fedora. #JeSuisArius

+5 -0

KFC, dimanche 28 janvier 2018 à 13h14

T’es sur de vouloir parler de la prononciation pour expliquer l’importance de l’anglais ?

Oui. L’anglais est pas trop difficile a prononcer au sens ou tu seras compris meme si, comme les francais, tu ne sais pas bien prononcer. Je ne parle pas de la correspondance ecrit <-> prononciation. Mais de la difficulte de prononciation.

À part quelques pièges avec les sch / ch, mais qui n’empêcheront pas un germanophone de te comprendre, l’allemand se prononce comme il s’écrit. C’est parfois dure à prononcer, mais on n’a pas à se poser la question du comment ça se prononce.

Le polonais a aussi une (quasi) parfaite bijection entre l’ecrit et la prononciation. Maintenant, je ne vois pas comment tu arrives a te poser la question de savoir pourquoi l’allemand ou le polonais ne sont pas des lingua franca… Peut-etre que parce que ce qui prime pour l’early adoption c’est la prononciation syllabique et pas la correspondance ecrit / oral.

L’anglais est une misère de ce point de vue là (peu de correspondance écrit - prononciation).

C’est un probleme qui survient peu (ou est peu genant) au debut de l’apprentissage.

Ton argument est complètement franco-centrée et/ou occidental-centré.

Mec, c’est toi qui est franco-centre. Je te rappelle que j’ai vecu plus de temps a l’etranger qu’en France puis que j’ai l’age de voyager et que je cotoie des dizaines de langues tous les jours justement. Et toi ? (c’est plus un argument d’experience que d’autorite qu’on se le dise)

La majorité des langues du monde sont des langues tonales. Le français est très répandu malgré une grammaire délicate, une orthographe décorelée de l’écrit (mais moins que l’anglais), une phonologie absconse (pas moins de 16 voyelles : a, ɑ, e, ɛ, i, o, ɔ, u, y, ə, œ, ø, ɑ̃, ɔ̃, ɛ̃, œ̃ – dont pas moins de 4 nasales, là où des langues ont 5 voire 3 voyelles en tout). Le français devrait être parlé à peu près nulle part selon ces « facteurs évidents », et pourtant…

Il l’est principalement dans ses anciennes colonies et il disparait ailleurs… pour ces raisons evidentes.

« Accessoirement », les occidentaux sont toute petite partie de la population mondiale.

Et donc ? C’est d’autant plus un argument en faveur du fait qu’il faut que la lingua franca soit d’autant plus simple… (outre les considerations coloniales). D’ailleurs, il est vrai que dans les pays peu ou pas occidentalises, on parle assez mal l’anglais et en general on participe assez peu a la mondialisation et aux echanges culturels mondiaux (la encore c’est l’oeuf ou la poule mais malgre leur taille et poids economique et culturel, la Chine se met a l’anglais).

L’anglais, le français, l’espagnol, le portugais, l’arabe ou le mandarin sont des langues véhiculaires aussi développées d’abord et avant tout à cause des empires coloniaux qui les ont imposées un peu partout, dans des endroits où il n’y avait pas ou peu de cohérence linguistique préexistante. Ce qui les a imposé comme langue de travail et de commerce. Et ce sans la moindre considération pour leurs qualités ou problèmes intrinsèques. Ajoute aussi les considérations politiques, comme par exemple la tentative d’imposer l’hindi comme langue officiel d’Inde.

C’est vrai a une epoque. C’est faux dans l’absolue et aujourd’hui. Si demain les chinois nous envahissent, tu peux etre a peu pres sur que dans 100 ans la lingua franca ne sera pas le chinois (sauf pression politique assez forte a.k.a. dictature). Pire, sans l’aide de personne, les chinois perdent leur ecriture, et beaucoup de langues ont tendances a adopter l’alphabet latin (ok, certaines adoptions sont politiques du style la Turquie ou meme la Pologne qui gagnerait a utiliser le cyrillique) par contagion (alors on me dira l’oeuf ou la poule ? et je dirais probablement un mix des deux mais il est sur que l’ecriture via un alphabet latin est plus simple que l’arabe du point de vue numerique ce qui met une sacre pression sur ces langue systemes d’ecritures).

Il est certain que les considerations d’ordre politique et historique jouent ou on joue (parfois un grand role) mais il y a bien des raisons qui font que le francais n’est nullement une langue en expansion autre qu’artificiellement et encore moins uen lingua franca alors qu’elle partage grosso-modo les meme difficultes que l’anglais.

Dans quel sens ? L’anglais a un vocabulaire très riche, autant que le français même pour exprimer des choses courantes sans tomber dans la littérature.

L’anglais a evidemment un vocabulaire tres riche. Mais de deux choses l’une:

Le nombre moyen de mots utilises par le locateur naifs moyen diminue avec le temps (probablement partout)
Je parle de l’anglais lingua franca et pas de l’anglais d’un natif.

On parle de lingua franca, pas de l’apprentissage d’une langue pour en devenir un expert. Le but de la lingua franca c’est de pouvoir communiquer facilement et au plus grand nombre: il faut donc qu’on puisse communiquer avec un apprentissage rapide, ce qui implique des regles grammaticales assez simples, peu de vocabulaire pour se debrouiller, etc.

A ce titre, l’anglais repond parfaitement a ces criteres (plus que beaucoup d’autres langues). A contrario, si tu veux demander un cafe en polonais, il faudra deja maitriser trois cas, chacun tres complexes, avec plein d’exceptions. Ce qui fait pour demander quelque chose il faudra maitrer N regles (selon le genre des mots, le temps, la personne a qui on s’adresse, etc) contre M « N en anglais.

Encore un exemple pour montrer une difference evidente de courbe d’apprentissage entre l’anglais et le polak sur un point de communication vitale. On s’accorde pour dire que les nombres c’est un must have qu’on doit apprendre tres rapidemment (au moins jusqu’a quelques ordre de grandeurs). En anglais apprendre les cardinaux suffit pour pour savoir dire l’heure. En polonais il faudra apprendre les cardinaux (car on ne dit pas il est deux heures mais il est la deuxieme heure).

C’est assez piégeur, cela peut vite donner un faux semblant de maitrise de la langue. Mais ça n’en reste pas moins un bel avantage pour débuter.

Il n’est pas question de maitrise, mais d’apprentissage jusqu’a une communication minimale (a un seuil fixe, raisonnable).

C’est honnêtement je pense la meilleure explication.

Mouai. Ca explique pourquoi le francais est encore parle, pas pourquoi l’anglais se developpe. Je pense surtout qu’a defaut d’un element politique mondial et majeur, l’anglais est un point d’equilibre: aucun interet a passer a une autre langue (et pas seulement par l’intertie de tout changer mais surtout parce que c’est un excellent compromis sur la courbe d’apprentissage, bien meilleur que la plupart des autres langues avec un peu d’influence).

C’est aussi un défaut, ça demande pas mal de gymnastique intellectuelle pour justement former et comprendre les phrases. L’avantage des règles c’est que cela donne un cadre qui simplifie la compréhension et diminue le risque de mauvaise interprétation.

Je ne suis pas d’accord. Tu peux toujours eviter cette gymnastique intellectuelle en anglais parce qu’elle est contextuelle (tu n’est pas assez bon pour comprendre ou te faire comprendre, donc tu paragraphes et on y arrive). Essaye de faire cela avec des langues ou la gymnastique intellectuelle est intrinsequement lie au language du type polonais et je peux te garantir que ton niveau de communication sera bien plus faible (sauf si tu as l’habitude de ce genre de langues comme disons un Tcheque).

Je ne crois pas que l’anglais soit intrinsèquement meilleur dans cet exercice que le français,

Quel avantage vois-tu au francais sur l’anglais en langue vehiculaire ? Personnellement, je n’en vois aucun: plus de sons, plus de regles, plus d’exception, plus de temps, plus de "je prononce meme pas le quart de ce qui est ecrit", etc. Ne me sort pas la diplomatie et l’expression de certaines nuances: ce n’est pas un usage vehiculaire. Est-ce que la courbe d’apprentissage du francais est plus facile que celle de l’anglais pour atteindre un niveau de communication minimale necessaire dans les echanges internationaux et en moyenne au niveau du globe ? Je ne pense pas.

Pour les phrasal verbes il y a toujours moyen de les contourner dans la communication a part quelques uns qui reviennent souvent. La encore, on parle de communication, pas de maitriser la langue.

28/01/18 à 13h14

« Kommunist Fried Chicken » | Macroeconomics: Three decades of intellectual regress

+1 -1

Connectez-vous pour pouvoir poster un message.
Connexion

Pas encore membre ?

Créez un compte en une minute pour profiter pleinement de toutes les fonctionnalités de Zeste de Savoir. Ici, tout est gratuit et sans publicité.
Créer un compte