SpaceFox à t-il réellement écrit tous ces textes ?

SpaceFox à t-il réellement écrit tous ces textes ?

Si je vous pose la question, vous vous doutez bien que la réponse n’est pas si simple.

Je me suis intéressé à la question d’un point d’un point de vue statistique, sans à priori sur les réponses, et les résultats que j’ai pu obtenir sont plutôt intéressants.

TL; DR

Vous n’aurez la réponse que lorsque vous aurez terminé de lire le billet.

Notre cadre de travail
Cherchons le style @SpaceFox
Comparons les styles d’écriture
La réponse à la grande question
Que s’est-il passé ?

Notre cadre de travail

Comme vous le savez-tous, durant le mois d’octobre, SpaceFox s’est lancé un défi personnel, celui d'écrire trente et une nouvelles, à raison d’une par jour pendant tout le mois d’octobre.

En début novembre il à fait un retour d’expérience/bilan de celui-ci. Il racontait dans son bilan que l’expérience avait été plutôt positive.

Néanmoins, on peut se demander comment c’est possible pour un ~~renard~~ être humain normalement constitué, qui doit certainement avoir un boulot à plein temps de rédiger un texte différent tous les jours.

Deux réponses sont possibles :

Il est fort … très fort
Il triche !

C’est donc à la deuxième question, que nous allons tenter de répondre.

Pour répondre à cette question, nous allons essayer d’identifier le style d’écriture de @SpaceFox, puis comparer son style avec celui de ses textes produits et à partir de là, voir si le style est plutôt uniforme (il a gardé la même façon d’écrire) ou toujours différents (il a essayé de se renouveler chaque jour), ou les deux.

Cherchons le style @SpaceFox

Pour information, nous nous basons sur ses textes qui sont disponibles sur son site internet.

Pour trouver son style, nous allons, pour chacun de ses textes identifier les propriétés de chacun de ces textes. Pour cela, nous allons calculer plusieurs éléments :

Le nombre de mots dans le texte
Le nombre de verbes, noms, adverbes, … utilisés dans le texte
La taille moyenne des mots d’une phrase

On va s’aider d’une bibliothèque de traitement automatique du langage naturel entrainée sur des modèles de la langue française pour faire le travail de parsing du texte. On va donc séparer les phrases, faire de l’analyse lexicale, détecter la nature des mots, et calculer les indicateurs ci-dessus.

On obtient donc le tableau suivant :

Afficher/Masquer le contenu masqué

Numéro du texte	AVG_WORD_SIZE	COUNT_WORD	ADJ	ADJWH	ADV	ADVWH	C	CC	CL	CLO	CLR	CLS	CS	DET	DETWH	ET	I	N	NC	NPP	P	PRO	PROREL	PROWH	PUNC	V	VIMP	VINF	VPP	VPR	VS
1	3.992	658	55	0	28	0	3	15	0	4	10	18	7	114	0	3	2	17	122	5	89	6	7	0	75	53	0	14	9	2	0
2	3.970	955	62	1	74	1	4	29	3	12	17	47	19	135	0	0	0	15	136	6	104	17	12	4	120	90	0	30	12	5	0
3	3.938	1060	56	1	67	0	4	26	0	16	11	37	14	163	2	0	3	9	185	15	122	12	17	2	133	97	0	19	44	4	1
4	4.070	962	68	0	47	0	3	24	4	13	12	31	9	149	1	3	2	8	175	7	112	18	9	1	130	92	0	14	28	2	0
5	3.666	712	64	0	25	0	0	15	1	2	5	10	2	142	0	0	0	34	116	25	101	1	5	0	93	30	0	9	28	4	0
6	4.078	663	41	1	33	1	1	13	2	6	10	37	17	99	0	0	3	21	108	10	68	10	6	1	86	62	0	12	12	1	2
7	3.855	1070	63	2	85	2	2	29	8	14	22	55	11	156	0	1	3	16	145	13	112	13	10	1	143	106	0	25	27	5	1
8	3.952	1518	108	0	74	3	1	44	0	18	18	63	21	236	0	0	2	23	258	14	184	15	15	1	206	132	1	35	40	4	2
9	3.581	1268	69	0	71	2	3	27	4	23	14	77	10	174	0	2	4	20	168	42	129	23	14	1	188	138	1	30	30	2	2
10	4.089	949	71	0	57	1	2	25	2	9	9	37	9	154	1	0	1	7	162	9	110	17	9	1	124	84	1	22	24	1	0
11	3.924	1202	75	0	79	4	9	46	2	16	30	57	17	165	0	1	2	23	161	4	127	16	13	0	145	119	0	48	39	3	1
12	3.493	942	67	2	63	0	4	28	2	12	10	53	5	123	0	0	2	17	122	17	93	21	14	1	148	92	1	21	18	3	3
13	3.905	423	37	0	19	0	0	15	2	8	3	18	6	61	0	1	0	6	62	0	42	8	6	0	58	41	0	19	10	0	1
14	3.980	1187	89	0	60	4	4	31	5	21	9	58	20	173	0	1	3	22	174	8	124	25	28	1	153	107	3	28	33	3	0
15	3.699	1147	81	0	70	0	1	40	6	22	6	58	13	171	1	1	1	15	167	7	130	29	18	1	151	105	5	20	19	1	8
16	4.385	712	61	1	40	0	5	26	2	5	6	15	4	107	0	0	0	12	129	15	87	9	6	2	83	57	0	14	22	4	0
17	3.916	795	46	0	40	1	1	38	0	18	6	29	8	130	0	1	0	4	132	28	99	8	10	0	94	68	1	10	19	4	0
18	3.864	701	54	0	29	1	3	21	1	3	8	30	12	119	0	0	0	8	129	1	92	3	5	0	87	59	2	17	14	3	0
19	3.928	447	54	0	26	0	0	13	0	1	2	3	4	78	0	0	0	17	80	3	62	5	3	0	61	18	0	6	11	0	0
20	4.534	704	69	1	30	0	0	21	0	2	4	3	5	140	1	0	0	16	130	26	105	6	13	0	68	36	3	4	19	1	1
21	3.742	457	34	0	36	0	5	16	1	6	4	25	4	58	0	0	0	5	61	3	45	10	7	0	63	56	0	7	8	3	0
22	4.337	449	47	0	21	0	0	24	0	5	8	12	4	59	0	0	1	9	69	11	55	1	4	0	63	38	0	11	7	0	0
23	4.035	603	51	0	22	0	0	21	1	4	13	13	5	103	0	0	1	6	107	13	78	4	5	0	81	48	0	8	18	1	0
24	3.560	812	43	0	33	0	4	26	2	26	13	44	9	110	0	1	0	10	113	9	92	11	9	0	123	87	1	17	22	4	3
25	4.011	651	43	0	46	0	2	10	3	8	3	33	8	91	1	0	4	9	101	9	75	9	3	0	96	56	2	23	13	1	2
26	3.052	159	4	0	12	0	1	1	1	3	1	11	3	26	0	0	0	0	24	1	15	2	1	1	26	21	0	0	4	1	0
27	3.581	1337	76	0	115	2	8	44	3	36	8	121	27	148	0	1	2	13	153	18	112	31	15	6	182	155	0	27	28	3	3
28	3.953	1825	134	2	159	1	25	74	0	35	20	111	45	227	1	0	1	26	242	2	198	23	36	0	161	167	0	60	63	2	10
29	3.524	712	41	0	41	3	2	22	2	7	7	32	10	104	0	0	7	9	93	11	67	27	3	1	105	67	2	29	16	2	2
30	3.590	409	18	0	24	0	2	13	1	3	4	17	3	74	0	0	0	14	65	10	46	6	5	0	53	35	1	6	8	0	1
31	4.211	469	35	0	41	1	4	19	0	11	8	13	7	60	0	0	1	9	69	5	46	12	8	0	55	46	0	9	9	0	1

Pour chaque texte (les lignes de notre tableau), on a les différentes caractéristiques.

Il ne nous reste plus qu’à analyser ces résultats pour comprendre si elle se ressemble ou au contraire elles n’ont rien à voir.

Comparons les styles d’écriture

Statistiquement, nous sommes ici en possession de données avec des variables continues, qui ont été normalisées. On peut procéder à une analyse en composantes principales pour visualiser ces résultats sur deux dimensions, afin de juger par nos propres yeux (l’œil humain voit mieux en 2D qu’en 33D) si les textes de @SpaceFox suivent un style particulier.

Attention, l’ACP se contente de recréer 2 dimensions à partir de nos 33 dimensions, en s’assurant que les deux dimensions nouvelles gardent le plus d’information possible.

Pour cela, on va utiliser la bibliothèque scikit-learn couplée à pandas de python pour procéder à cette ACP. Mon code ressemble donc à ceci :

import pandas as pd
from sklearn.decomposition import PCA
from sklearn.preprocessing import normalize

df = pd.read_csv('results.csv')
pca = PCA(n_components=2) # une ACP sur deux dimensions
pca.fit(df)

# notre ACP suit une loi normale
PCA(copy=True, n_components=2, whiten=False)

existing_2d = pca.transform(df)

existing_df_2d = pd.DataFrame(existing_2d)
existing_df_2d.index = df.index
existing_df_2d.columns = ['PC1','PC2']
existing_df_2d.head()

print(pca.explained_variance_ratio_)

Le résultat de ce morceau de code donne :

[0.98615272 0.00731169]

Ce qui nous dit que notre ACP a réussi à créer deux dimensions, dont la première (PC1) porte 98,6 % de l’information de notre tableau.

Autrement dit, la projection sur deux dimensions sera plutôt fidèle. On a perdu très peu d’information.

La réponse à la grande question

Trêve de plaisanterie, est-ce que tu peux nous dire quelle est la réponse ?

Observons les résultats ensemble :

Résultat de l’ACP (Afficher/Masquer)

Ce que l’on observe ici c’est que (souvenez-vous que l’axe qui porte le plus d’information est l’axe PC1, celui des abscisses): Le texte N°28 est très différent des autres du point de vue de son style d’écriture.

C’est étonnant, très étonnant.

Ce détachement ne semble pas lié à la longueur du texte, car même après l’application d’une opération de centrage et réduction des données, on retrouve toujours ce texte en électron libre.

Que s’est-il passé ?

Si on remonte quelques semaines plus tôt, le jour de la publication de ce texte, l’auteur @SpaceFox déclarait :

Je ne vous ai pas oubliés, et je compte bien terminer les 31 textes ! Celui du 28 est à la fois le plus long et celui qui a été le plus difficile à écrire, en plus d’être la suite directe du précédent. Place à Le secret le plus intime !

SpaceFox

Pourquoi l’auteur déclare-t-il que ce texte a été le plus difficile à écrire ? Tout porte à croire que ce texte n’a pas été écrit comme les autres, ni par la même personne.

J’ai ma petite idée, mais je laisse l’auteur ou quelqu’un d’autre qui a compris le stratagème nous expliquer tout ça de lui-même.

20 commentaires

nohar, jeudi 06 décembre 2018 à 18h24
Modifié

Hahaha !

@willard se réveille de son sommeil d’un an, et comme d’hab il tape dur !

Mais les zAwards alors ?!

06/12/18 à 18h24
Modifié

I was a llama before it was cool

+32 -0

artragis, jeudi 06 décembre 2018 à 19h20

wahou pour un premier billet c’est un sacré billet.

06/12/18 à 19h20

+6 -0

SpaceFox, jeudi 06 décembre 2018 à 20h09

Hahahahaha

Ce qui est beau avec Willard, c’est qu’en ne postant qu’une fois par an, il arrive quand même à nous faire comprendre qu’il a beaucoup trop de temps libre.

Mes études sont trop loin pour vérifier ses calculs et ses hypothèses – je laisse ça à qui veut. Par contre, je tiens à signaler que son raisonnement et ses métriques sont solides ; en effet :

Le texte n°28 est réellement différent des autres au niveau du style, et c’est volontaire.

Une petite explication du pourquoi du comment : ces textes ont tous été écrits sur le temps libre que me laissait mon travail à plein temps. Concrètement, ça voulait dire entre 1h et 2h30 par texte, maximum, relecture rapide comprise. Ça ne laisse pas le temps de soigner particulièrement quoi que ce soit, en particulier le style.

Le texte n°28 « Le secret le plus intime » est particulier en ce sens qu’il devait avoir un style spécifique, pour une raison que je dévoile ici :

Afficher/Masquer le contenu masqué

Ce texte devait laisser transparaître dans son écriture l’instabilité mentale de la narratrice, et instiller le doute au lecteur : quelle est la vérité derrière ce texte bizarre ? Lucie est-elle une psychopathe au dernier degré, a-t-elle un problème psychologique d’un autre ordre, est-elle réellement ce qu’elle prétends ?
Le texte devait montrer un état d’esprit suffisamment bancal pour que n’importe laquelle de ces options soit possible. Ce qui impliquait que le style, la façon qu’a la narratrice de coucher ses idées par écrit, reflète ces états d’esprits. Et ça explique la longueur et la difficulté d’écriture auxquelles je faisait mention dans mon annonce du texte.

J’espérais avoir réussi ce changement de style. J’ai maintenant un outil mathématique qui me prouve qu’effectivement, le style est différent : merci @willard !

06/12/18 à 20h09

Les textes de SpaceFox & Lisa Refur – Un Renard en Corée – Un renard au Japon – @spacefox@mastodon.spacefox.fr

+27 -0

nohar, jeudi 06 décembre 2018 à 20h24
Modifié

Ce qui est beau avec Willard, c’est qu’en ne postant qu’une fois par an, il arrive quand même à nous faire comprendre qu’il a beaucoup trop de temps libre.

Pourtant il travaille 364 jours et demie par an.

Afficher/Masquer le contenu masqué

Mais vu que l’orbite de sa planète est, d’après mes calculs, proche de celle de Jupiter, ça lui en laisse 3640 de libre, à une vache près…

06/12/18 à 20h24
Modifié

I was a llama before it was cool

+5 -0

ache, jeudi 06 décembre 2018 à 20h43

Best TD;DR ever !

On t’aime willard. <3

06/12/18 à 20h43

ache.one 🦹 👾 🦊

+7 -0

anonyme, jeudi 06 décembre 2018 à 22h15

@willard pour mon côté scientifique et appliquer une démarche scientifique, pourrais-tu tester ton approche sur cette hypothèse absurde : "Toutes les Récaps de zeste de savoir sont écrit par la même personne" ?

Je souhaite savoir si elle détecte les "NON" sinon on tombe sur une théorie délirante des crop circles.

06/12/18 à 22h15

+7 -0

Fumble, jeudi 06 décembre 2018 à 23h10

Sacré piou-piou !

06/12/18 à 23h10

Ex-Secrétaire de Zeste de Savoir - Sharleen - Áfram Ísland ! - Commander Shepard true fan

+0 -0

Amaury, vendredi 07 décembre 2018 à 00h55
Modifié

Quel retour, magnifique et en plus instructif

07/12/18 à 00h55
Modifié

#JeSuisArius ⋅ Site perso, pro, et scientifique ⋅ Le Pitit Bac ⋅ Twitch : La Veille évolue… stay tuned ⋅ Morel Games : nos futurs jeux (ça reviendra…)

+0 -0

anonyme, vendredi 07 décembre 2018 à 09h10

Excellent billet et ravi de voir que notre troll notoire continue à sévir.

Ça me donne envie d’explorer les outils dont il est question.

07/12/18 à 09h10

+0 -0

ache, vendredi 07 décembre 2018 à 09h40
Modifié

C’est rigolo car pour le coup, l’ACP est étonnamment précise !

Le texte 26 qui est un sujet qui n’inspirait pas du tout notre renard spécial est bien discriminé à cause de sa taille. Les textes 5 et 20 qui ont un style très proche et particulier sont discriminés ensemble. Le texte 8 est particulièrement long et utilise des caractères non français "Thorbjørn" par exemple. Et pour finir les deux textes sur Lucie sont eux aussi séparés de la masse (mais pas mis ensemble pour une raison que SpaceFox explique).

C’est juste un remarque comme ça en passant
Bonne journée à tous \o

07/12/18 à 09h40
Modifié

ache.one 🦹 👾 🦊

+0 -0

anonyme, vendredi 07 décembre 2018 à 11h12

Quid du texte 27 ?

07/12/18 à 11h12

+0 -0

ache, vendredi 07 décembre 2018 à 11h32

\o dab, je sais pas si c’est à moi que tu parles mais c’est un des deux textes sur Lucie. Très sincèrement, je ne saurais expliquer la discrimination, je ne suis pas allez plus loin que « c’est un texte sur Lucie ». C’est Jacquemin qui parle sauf lors des dialogues. On peut noter que Jacquemin à un nom pourrave ainsi que la présence de dialogue courts et sacadés alternés de descriptions. @SpaceFox help ^^"

Edit: J’avais pas encore envoyé mon message mais du coup merci pour le coup de pate

07/12/18 à 11h32

ache.one 🦹 👾 🦊

+0 -0

melepe, vendredi 07 décembre 2018 à 11h46

Tout porte à croire que ce texte n’a pas été écrit comme les autres, ni par la même personne.

Bien sûr, c’était évident ! Dans le texte du 28, le texte est à la première personne, qui s’appelle Lucie et qui cherche à éradiquer l’humanité.

Or, SpaceFox est un homme et ne cherche pas à éradiquer l’humanité. ^{Enfin je crois.}

Nous sachons !

07/12/18 à 11h46

+2 -0

SpaceFox, vendredi 07 décembre 2018 à 11h48

Or, SpaceFox est un homme et ne cherche pas à éradiquer l’humanité. ^{Enfin je crois.}

melepe

À ta place je ne parierais pas trop là-dessus. Déjà, je suis un renard.

07/12/18 à 11h48

Les textes de SpaceFox & Lisa Refur – Un Renard en Corée – Un renard au Japon – @spacefox@mastodon.spacefox.fr

+10 -0

anonyme, vendredi 07 décembre 2018 à 15h51

Je suis un avion.

_{Quoi ? Tout le monde s’en fiche. Va bouder.}

07/12/18 à 15h51

+3 -0

informaticienzero, vendredi 07 décembre 2018 à 15h59

@willard, arrête de passer sur le site sans rien faire. Dépêche toi de créer les zAwards 2018, ça fait un an qu’on attend (voire plus pour ceux de ta planète) !

07/12/18 à 15h59

Apprendre le C++ moderne

+1 -0

peco, vendredi 07 décembre 2018 à 16h49

Yop

Ça fait un petit moment que je n’ai pas manipulé de PCA mais vu la valeur « d’explicativité »* du 2e axe, est-ce que c’était vraiment si pertinent de le garder ? Bon ok c’est moins joli d’avoir une simple droite.

Mais du coup, dans l’interprétation de la PCA, 27 et 9 semblent très différents. Ils sont très éloignés sur l’axe des ordonnées, et peu sur l’axe des abscisses. Ici, sont-ils plus ou moins différents que le sont24 et 25, très proches sur l’axe des ordonnées mais un peu éloignés sur l’axe des abscisses ?

J’ai cherché sur ZdS et je n’ai pas vu de cours sur les Analyses en Composantes Principales pour vérifier ça .

*Je ne sais plus comment ça s’appelle, ça représente en gros le % de variance expliquée par l’axe c’est ça ?

Merci à tous

07/12/18 à 16h49

+0 -0

Emel, lundi 10 décembre 2018 à 18h44

Zeste de savoir. Le site où même les contenus trollesques sont de qualité.

10/12/18 à 18h44

+12 -0

Et s'il avait triché ?

Notre cadre de travail

Cherchons le style @SpaceFox

Comparons les styles d’écriture

La réponse à la grande question

Que s’est-il passé ?

20 commentaires

Pas encore membre ?

Notre cadre de travail

Cherchons le style @SpaceFox

Comparons les styles d’écriture

La réponse à la grande question

Que s’est-il passé ?

20 commentaires

Pas encore membre ?

Que s’est-il passé ?