Deviner qui est l'auteur d'un message grâce au Machine Learning

Je sais qui je suis, mais quelques uns m’ont déjà posé cette question : "Qui es-tu ?" et ben, c’est dans ce billet que je souhaite répondre.

Je me doute bien que si je me contente de dire, je suis XXX, on risque de me traiter de menteur, alors j’aimerai apporter la preuve que je suis qui je suis avec l’aide d’algorithmes de machine learning.

Sans plus attendre, raisonnons ensemble !

Allons à la recherche d'informations sur moi
Construisons notre modèle de prédiction
A la recherche de l'infiltré

Allons à la recherche d'informations sur moi

Tout ce que l’on sait sur moi se trouve sur Zeste de Savoir. Et, croyez le ou pas, tout ce que l’on dit sur internet, même derrière un pseudonyme, permet de nous identifier. Sur internet on peu changer notre adresse email, notre pseudonyme, notre adresse ip, notre FAI, mais quelque chose de très compliqué à changer, c’est notre façon de parler/d’écrire. Et c’est comme ça que je vais vous prouver que je suis ce que je suis.

Nous allons nous concentrer sur tout ce que j’ai pu dire sur les forums de Zeste de Savoir. Pour cela, j’ai écrit un script qui me permet de collecter l’ensemble de mes messages sur le site.

Nous allons partir de l’hypothèse suivante : le jour ou j’ai écris cet article, j’étais infiltré dans le staff. Ce qui signifie donc que la liste des suspects est réduite aux membres du staff ce jour là.

C’est la raison pour laquelle on va aussi télécharger l’ensemble des messages des membres du staff à cette époque ainsi que des messages de ceux dont on est certain que ce n’est pas moi (des contres exemples quoi).

En résumé, voici les données que je vous propose de télécharger pour tester le code donné par la suite.

Lien de téléchargement

Le contenu de l’archive est le suivant :

fichier/dossier	Description
staff.csv	Fichier csv contenant la liste des membres du staff à l’époque ou le fameux article a été publié.
data.csv	Liste des phrases que l’on trouve sur le forum. La colonne target est affectée à 1 lorsque c’est une phrase écrite par willard et à 0 si la phrase n’a pas été écrite par lui.
sentences	Répertoire avec une liste de fichiers csv contenant des phrases de plusieurs membres, téléchargées sur le forum Zeste de Savoir
build_model.py	Script de construction du modèle
guess.py	Script qui permet de deviner qui est willard.

Une fois les fichiers téléchargés, vous devez obtenir l’arborescence suivante:

.
├── build_model.py
├── data.csv
├── guess.py
├── sentences
│   ├── sentences_10199.csv
│   ├── sentences_101.csv
│   ├── sentences_110.csv
│   ├── sentences_1309.csv
│   ├── sentences_138.csv
│   ├── sentences_141.csv
│   ├── sentences_143.csv
│   ├── sentences_155.csv
│   ├── sentences_2315.csv
│   ├── sentences_241.csv
│   ├── sentences_243.csv
│   ├── sentences_244.csv
│   ├── sentences_267.csv
│   ├── sentences_276.csv
│   ├── sentences_288.csv
│   ├── sentences_2.csv
│   ├── sentences_326.csv
│   ├── sentences_3349.csv
│   ├── sentences_379.csv
│   ├── sentences_542.csv
│   ├── sentences_5500.csv
│   ├── sentences_588.csv
│   ├── sentences_615.csv
│   ├── sentences_65.csv
│   ├── sentences_66.csv
│   ├── sentences_67.csv
│   ├── sentences_68.csv
│   ├── sentences_69.csv
│   ├── sentences_72.csv
│   ├── sentences_73.csv
│   ├── sentences_747.csv
│   ├── sentences_74.csv
│   ├── sentences_80.csv
│   ├── sentences_819.csv
│   ├── sentences_82.csv
│   ├── sentences_90.csv
│   ├── sentences_92.csv
│   └── sentences_94.csv
└── staff.csv

Construisons notre modèle de prédiction

Installation des libs externes

Pour nos travaux nous travaillons avec python 3.6. Nous aurons besoin d’installer les libs python suivantes:

pip install pandas
pip install scikit-learn

Séparer nos données (train et test)

Pour construire notre modèle, nous allons commencer par séparer nos données en deux catégories. Les données d’entrainement (celles qui vont servir à entraîner notre modèle) et les données de validation (celles qui vont permettre de valider que notre modèle est juste).

L’opération se fait grâce au code suivant :

import os
import pandas as pd
from sklearn.model_selection import train_test_split

# Import des données
data = pd.read_csv('data.csv')
CURRENT_DIR = os.path.dirname(os.path.realpath(__file__))

texts = data.sentence
target = data.target

# definir la colonne target comme étant de type booléen
target = target.astype('bool')

# split des données en deux catégories
sentences_train, sentences_test, y_train, y_test = train_test_split(texts.values, target.values, test_size=0.3, random_state=1000)

Nous venons d’effectuer une séparation dont 30% de nos données initiales serviront pour l’apprentissage.

La vectorisation du texte

Notre variable principale (la colonne X) contient surtout du texte. Le problème c’est que le texte ne se donne pas comme cela aux algorithmes, il faut au préalable le vectoriser. C’est à dire, transformer une phrase en une liste de nombre. On peut le voir comme la version mathématique de la phrase.

Il existe plusieurs types de vectorisation, et chacun s’utilise en fonction des cas que l’on veut traiter. Pour notre cas, nous utiliserons la vectorisation par comptage de mots.

En python ça donnera ceci :

from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
vectorizer.fit(sentences_train)

# vectorise les phrases d'entrainement et de test avec CountVectorizer
X_train = vectorizer.transform(sentences_train)
X_test  = vectorizer.transform(sentences_test)

Maintenant que l’on dispose de la forme vectorisée des phrases, on enregistre le modèle de vectorisation dans un fichier (on le réutilisera quand il faudra effectuer les prédictions).

import pickle
pickle.dump(vectorizer, open(os.path.join(CURRENT_DIR, "vectorize.data"), 'wb'))

L’apprentissage du modèle

Nos phrases sont vectorisées, cela signifie que l’on peut les passer à un algorithme. Mais la question principale qui se pose est :

Quel est l’algorithme dois-je utiliser ?

Hey oui, il y en a tellement des algorithmes, mais on sait néanmoins choisir les algorithmes en fonction du type de nos variables. Par exemple observons ce que nous avons :

Nos variables sont des vecteurs (oui, on vient de les calculer)
On essaye de prédire une cible de type booléenne (willard or not willard ?)

Vous l’avez deviné, on est tout a fait dans le cas à traiter par une régression logistique.

Régression parce qu’on essaye de prédire quelque chose, on parle aussi d’expliquer un résultat en fonction d’une ou plusieurs variables.
Logistique parce que la variable que l’on essaye de prédire n’est pas quantitative, mais qualitative (booléenne dans notre cas).

C’est parti pour le code d’apprentissage.

from sklearn.linear_model import LogisticRegression

model = LogisticRegression()
# l'apprentissage se fait bien sur la variable vectorisée de l'entrainement
model.fit(X_train, y_train)
# on calcule la précision du modèle sur les données de validation
score = model.score(X_test, y_test)

print("Precision:", score)

La précision renvoyée est :

Precision: 0.9800575263662512

On a donc ici une précision de 98% avec notre modèle d’apprentissage. Autant dire que c’est formidable. On saura, avec ce modèle prédire avec 98% de chances qu’une phrase a été écrite par moi. Fantastique non ?

Vite, vite ! Enregistrons notre modèle.

import pickle

pickle.dump(model, open(os.path.join(CURRENT_DIR,"model.data"), 'wb'))

Vous pouvez tout simplement lancer la commande python build_model.py qui résume ce que l’on a vu dans cette section.

Deux fichiers seront crées, model.data et vectorize.data.

A la recherche de l'infiltré

L’infiltré est un membre de l’ancien staff qui écrit de la même manière que moi. On va donc chercher dans la liste des messages des membres de l’ancien staff, lesquels correspondent à des phrases de Willard.

Le code qui permet de le calculer est le suivant :

# guess.py
import os
import csv
import pickle
import pandas as pd

CURRENT_DIR = os.path.dirname(os.path.realpath(__file__))
# on charge le modèle de vectorisation
vectorizer = pickle.load(open(os.path.join(CURRENT_DIR,"vectorize.data"), 'rb'))
# on charge le modèle d'apprentissage
model = pickle.load(open(os.path.join(CURRENT_DIR,"model.data"), 'rb'))
res = []

def get_ids_from_file(filepath):
    """
    Cette fonction renvoi la liste des id dans un fichier à deux colonnes "id;username"
    """
    ids = []
    with open(filepath, 'r') as csvfile:
        readercsv = csv.reader(csvfile, delimiter=',', quotechar='"')
        next(readercsv)
        for row in readercsv:
            ids.append(row[0])

    return ids

def get_username_from_id(filepath, id):
    """
    Cette fonction renvoi le nom d'utilisateur correspondant à un id
    """
    with open(filepath, 'r') as csvfile:
        readercsv = csv.reader(csvfile, delimiter=',', quotechar='"')
        next(readercsv)
        for row in readercsv:
            if row[0] == id:
              return row[1]

    return None

def predict_from_sent(x):
    """
    Cette fonction renvoi True si la phrase est de willard.
    """
    p_value = model.predict(vectorizer.transform([x]))

    return p_value[0]

# on recupère la liste des ids des staff de l'époque
ids = get_ids_from_file("staff.csv")
for id in ids:
    data = pd.read_csv('sentences/sentences_{}.csv'.format(id), header=None)
    data["is_willard"] = data[1].map(predict_from_sent)
    guilty = data.loc[data['is_willard'] == True]
    res.append({"id": get_username_from_id("staff.csv", id), "guilty": len(guilty.index)})

print(sorted(res, key = lambda i: i['guilty'], reverse=True))

Vous pouvez tout simplement lancer la commande python guess.py.

Si vous lancer le code chez vous (après avoir construit le modèle), vous pouvez retrouver qui sur ce forum, s’amuse à parler comme moi.

Pour les plus paresseux (mais je n’en dirais pas plus), sachez que le coupable se trouve parmi les cinq membres suivants (il s’agit des cinq membres dont les messages ressemblent furieusement à ma façon d’écrire):

Andr0
Arius
firm1
Kje
ShigeruM

Bon courage.

L’objectif de ce billet était de montrer que, plus on poste sur les forums, les réseaux sociaux, plus les algorithmes arriveront à nous identifier.

Maintenant que vous savez qui je suis, une question éthique se pose

Est-ce que je peux être sanctionné uniquement parce qu’un algorithme l’a décidé ? Souhaitons nous faire confiance aux machines pour prendre des décisions importantes ?

Je vous laissez réfléchir !

37 commentaires

Aabu, jeudi 16 mai 2019 à 09h09
Staff

Est-ce que je peux être sanctionné uniquement parce qu’un algorithme l’a décidé ?

Non, il faut aussi que tu le demandes gentiment, en n’oubliant pas le mot magique.

16/05/19 à 09h09

+7 -0

Ge0, jeudi 16 mai 2019 à 09h15

Ça te fait quel âge maintenant ?

16/05/19 à 09h15

Ge0

+1 -0

Situphen, jeudi 16 mai 2019 à 10h02

Ça te fait quel âge maintenant ?

Ge0

Avec tous ses voyages spatio-temporels, il ne doit pas passer énormément de temps sur la Terre. Pour peu qu’il ait été au voisinage d’un trou noir ou d’un astre massif du même gabarit, il ne doit pas avoir beaucoup vieilli ! 14 ans me semble une bonne estimation.

16/05/19 à 10h02

Corruptible avec des crêpes au sirop d’érable

+2 -0

Renault, jeudi 16 mai 2019 à 10h03

Pour les plus paresseux (mais je n’en dirais pas plus), sachez que le coupable se trouve parmi les cinq membres suivants (il s’agit des cinq membres dont les messages ressemblent furieusement à ma façon d’écrire):

Et on sait que parmi cette liste, on peut écarter ceux qui ne savent pas coder en Python.

L’étau se resserre.

16/05/19 à 10h03

Amateur de Logiciel Libre et de la distribution GNU/Linux Fedora. #JeSuisArius

+3 -0

Eskimon, jeudi 16 mai 2019 à 10h06

QUOI ? Un Multi-compte pour un membre du Staff ? Quelle honte ! Scandale ! Remboursé !

Nickel cet article. Même si je connais déjà la réponse, j’admire la façon de l’amener !

De la même façon, en recoupant le temps entre le premier message/inscription d’un membre et le contenu de ce premier message on pourrait anticiper les comptes de spam ?

16/05/19 à 10h06

ZdS, le best du Zeste ! | Tuto Arduino, blog, etc

+11 -0

Arius, jeudi 16 mai 2019 à 10h20

Mais qu’est-ce que j’ai fait ?

Ce n’est pas moi, je vous jure ! Je connais la réponse !

16/05/19 à 10h20

"Throw me to the wolves and I will return leading the pack." — Seneca

+1 -0

Situphen, jeudi 16 mai 2019 à 10h20
Modifié

De la même façon, en recoupant le temps entre le premier messagae/inscription d’un membre et le contenu de ce premier message on pourrait anticiper les comptes de spam ?

Oui ! J’ai commencé à jouer un peu sur la bêta à détecter les comptes de spam. En prenant tous les comptes qui ne se sont pas reconnectés après s’être inscrit (intervalle de moins de 5 ou 10 minutes entre la date d’inscription et de dernière connexion) et qui ont une biographie non vide qui contient les mots clés "UK" ou "Essay" out "Writing" j’ai pu trouver des comptes qui avaient échappés à notre vigilance. Effectivement avec un algorithme d’apprentissage machine ça peut être encore plus efficace. Il suffit de l’entraîner sur les comptes bannis avec une longue biographie (principalement des comptes de spam) puis tester sur tous les comptes de la base de données.

Édition En alternative on peut aussi prendre les noms de comptes de spam, qui sont souvent de la forme "prénom anglais" + "nom anglais" + 2 chiffres, le tout en minuscule. Mais bon, ça fait moins de données à analyser qu’une biographie donc je pense que la détection serait plus faible.

On pourrait aussi analyser leur adresse de courriel qui a aussi un pattern reconnaissable. Mais là encore ça ne fait que quelques caractères et chiffres.

16/05/19 à 10h20
Modifié

Corruptible avec des crêpes au sirop d’érable

+3 -0

Arius, jeudi 16 mai 2019 à 10h31
Modifié

Il suffit de l’entraîner sur les comptes bannis avec une longue biographie (principalement des comptes de spam) puis tester sur tous les comptes de la base de données.

L’idéal serait surtout de créer des faux comptes sur la bêta, d’apprendre à l’algo à reconnaître les patterns désiré (url suspecte dans la bio ou le champ site web, multiples posts ayant exactement le même contenu/contenu similaire, post publicitaire unique similaire à un post ayant déjà fait l’objet d’un acte de modération, etc.) et voir s’il détecte bien les comptes créés car il ne faut pas oublier que tous les comptes spam n’ont pas forcément des mots clés dans leur bio, même si cela est le cas de ceux qui nous embêtent dernièrement. L’algo devrait être capable de détecter une gamme de patterns (tout en ayant conscience des faux positifs éventuels car ce n’est pas à exclure).

Ensuite, si l’idée d’avoir un tel algo en production intéresse, simplement faire en sorte qu’il signale les comptes suspects et laisser le staff gérer.

16/05/19 à 10h31
Modifié

"Throw me to the wolves and I will return leading the pack." — Seneca

+1 -0

Situphen, jeudi 16 mai 2019 à 10h40

Moi j’ai essayé vite fait de les détecter avec des mots clés, mais si j’avais poussé mes investigations j’aurais fait un petit algorithme d’apprentissage machine, ce qui se rapproche plus de la détection de pattern que de mots clés (si on a suffisamment de vrais comptes spam sous la main).

Tu proposes de créer de faux comptes spam, mais si on fait ça on aura un algorithme entraîné à reconnaître nos faux comptes de spam. Rien ne nous dit qu’il sera bon à reconnaître les vrais comptes de spam ! D’ailleurs, je ne suis pas sûr d’être capable de créer moi-même un bon faux compte de spam.

16/05/19 à 10h40

Corruptible avec des crêpes au sirop d’érable

+0 -0

Arius, jeudi 16 mai 2019 à 10h47
Modifié

Moi j’ai essayé vite fait de les détecter avec des mots clés, mais si j’avais poussé mes investigations j’aurais fait un petit algorithme d’apprentissage machine, ce qui se rapproche plus de la détection de pattern que de mots clés (si on a suffisamment de vrais comptes spam sous la main).

Tu proposes de créer de faux comptes spam, mais si on fait ça on aura un algorithme entraîné à reconnaître nos faux comptes de spam. Rien ne nous dit qu’il sera bon à reconnaître les vrais comptes de spam !

Situphen

L’idée est surtout de l’entraîner sur les deux. Il faut bien tester la détection et AMHA, pour cela, il faut 1) l’apprendre à reconnaître un certain pattern sur des comptes déjà banni et des faux-comptes mais ensuite 2) tester cet apprentissage sur des comptes spam créés au préalable et voir d’une manière heuristique si l’algo retourne un/des résultats.

Il faut bien mettre la détection à l’épreuve (car se limiter aux comptes que nous avons déjà banni (et donc dont on connait le pattern) risque de faire en sorte que l’algo soit trop restrictif ou incapable de s’adapter à des comptes qui ne correspondent pas tout-à-fait au pattern appris)

D’ailleurs, je ne suis pas sûr d’être capable de créer moi-même un bon faux compte de spam.

T’en fais pas. Avec la bande de filous que nous avons au sein du staff et de la communauté, ça, c’est le dernier de nos soucis.

16/05/19 à 10h47
Modifié

"Throw me to the wolves and I will return leading the pack." — Seneca

+0 -0

Eskimon, jeudi 16 mai 2019 à 10h48

Ensuite, si l’idée d’avoir un tel algo en production intéresse, simplement faire en sorte qu’il signale les comptes suspects et laisser le staff gérer.

Ah oui hein, surtout pas d’autoban, laissons la présomption d’innocence… Mais une petite alerte dans le panel du staff par contre…

16/05/19 à 10h48

ZdS, le best du Zeste ! | Tuto Arduino, blog, etc

+6 -0

Arius, jeudi 16 mai 2019 à 10h51

Ensuite, si l’idée d’avoir un tel algo en production intéresse, simplement faire en sorte qu’il signale les comptes suspects et laisser le staff gérer.

Ah oui hein, surtout pas d’autoban, laissons la présomption d’innocence… Mais une petite alerte dans le panel du staff par contre…

Eskimon

Yep.

Avec une option "Ce compte n’est pas suspect" permettant d’affiner la détection de l’algo au fil du temps.

16/05/19 à 10h51

"Throw me to the wolves and I will return leading the pack." — Seneca

+1 -0

Situphen, jeudi 16 mai 2019 à 10h51

Ah et j’en profite pour rappeler : il ne faut pas créer de faux comptes en production, seulement sur la bêta (si l’inscription fonctionne, ce qui est à vérifier)

16/05/19 à 10h51

Corruptible avec des crêpes au sirop d’érable

+5 -0

Renault, jeudi 16 mai 2019 à 11h30

Je trouve qu’Arius détourne l’attention du vrai sujet ici. C’est suspect.

16/05/19 à 11h30

Amateur de Logiciel Libre et de la distribution GNU/Linux Fedora. #JeSuisArius

+3 -0

Moté, jeudi 16 mai 2019 à 12h40

C’est pas cool pour ceux qui pètent rien à l’utilisation de python

16/05/19 à 12h40

Avant je m’appelais Phigger - La vie, c’est comme les mirabelles - Si vous ne deviez lire qu’un seul de mes articles - PetitMote.fr

+0 -0

ache, jeudi 16 mai 2019 à 16h00

À propos de l’étude qui est mené dans ce billet.
Il y a des sources à ce sujet ? Des recherches universitaires ? Un papier peut-être ?

16/05/19 à 16h00

ache.one 🦹 👾 🦊

+1 -0

anonyme, jeudi 16 mai 2019 à 16h34

Andr0

Arius

firm1

Kje

ShigeruM

Bon courage

Le fait que bon courage fasse parti de la liste n’est pas un hasard… Willard serait donc " Bon courage " ??? Affaire à suivre…

16/05/19 à 16h34

+0 -0

qwerty, jeudi 16 mai 2019 à 22h35

Moi qui regardait les dates de dernières connexions et comparait à ceux de notre ami…

16/05/19 à 22h35

La tero estas nur unu lando | Géographe de service | Cliquez 👍 pour dire merci

+0 -0

Gabbro, jeudi 16 mai 2019 à 23h03

En fait, c’est un compte partagé entre tous ces gens là. D’où le résultat.

SpaceFox

Vu le retard pris pour les Zaward, s’ils s’y sont mis à 5, ça en deviens honteux.

16/05/19 à 23h03

Il y a bien des façons de passer à l’acte. Se taire en est une. Attribué à Jean-Bertrand Pontalis

+9 -0

nohar, vendredi 17 mai 2019 à 07h24

On peut aussi écarter ceux qui ne se sont pas connectés depuis un an.

17/05/19 à 07h24

I was a llama before it was cool

+0 -0

qwerty, vendredi 17 mai 2019 à 07h42

J’ai essayé de comparer la liste de suspects et leurs dernières connexions (plusieurs fois…) mais la piste est coriace !

17/05/19 à 07h42

La tero estas nur unu lando | Géographe de service | Cliquez 👍 pour dire merci

+0 -0

Situphen, vendredi 17 mai 2019 à 08h21
Modifié

Je n’ai pas le temps de faire une étude plus poussée mais en analysant les données EXIF (avec ce site web) des graphiques de Willard sur le sujet de zAwards, j’ai découvert qu’il utilise une certaine version de matplotlib. Quelqu’un peut investiguer sur les contenus des suspects pour voir quels logiciels ils utilisent ? Je sais que Inkscape laisse une trace, c’est probablement le cas pour d’autres outils. Cette enquête peut peut-être nous permettre de restreindre la liste des suspects !

17/05/19 à 08h21
Modifié

Corruptible avec des crêpes au sirop d’érable

+2 -0

SpaceFox, vendredi 17 mai 2019 à 08h28

Dans tout ça on oublie qu’on raisonne sur deux points qui sont litigieux de base :

Willard prétends avoir été infiltré dans le staff, mais on a aucune autre preuve de ce qu’il avance lui-même.
Le jeu de données a été fourni par Willard lui-même, sans les méthodes exactes qui ont permit de le générer et donc qui permettraient de le régénérer.

Donc, Willard nous demande de croire des conclusions sur la base d’informations fournies par Willard et en l’état invérifiables. Donc, prudence.

17/05/19 à 08h28

Les textes de SpaceFox & Lisa Refur – Un Renard en Corée – Un renard au Japon – @spacefox@mastodon.spacefox.fr

+12 -0

Moté, vendredi 17 mai 2019 à 11h17

Imaginez que Willard ne soit autre que Willard, une personne qui s’amuse bien à venir 2 fois par an sur ZdS pour nous raconter un peu tout et n’importe quoi :|

17/05/19 à 11h17

Avant je m’appelais Phigger - La vie, c’est comme les mirabelles - Si vous ne deviez lire qu’un seul de mes articles - PetitMote.fr

+0 -0

On va essayer de savoir qui je suis

Allons à la recherche d'informations sur moi

Construisons notre modèle de prédiction

Installation des libs externes

Séparer nos données (train et test)

La vectorisation du texte

L’apprentissage du modèle

A la recherche de l'infiltré

37 commentaires

Pas encore membre ?