Les machines aussi peuvent apprendre

Vayel, mardi 28 mars 2017 à 10h54
Modifié

Tout le monde se secoue !

J’ai commencé (mardi 02 février 2016 à 10h38) la rédaction d’un tutoriel au doux nom de « Les machines aussi peuvent apprendre » et j’ai pour objectif de proposer en validation un texte aux petits oignons. Je fais donc appel à votre bonté sans limites pour dénicher le moindre pépin, que ce soit à propos du fond ou de la forme. Vous pourrez consulter la bêta à votre guise à l’adresse suivante :

À présent, c’est à vous !

Le tutoriel en est à ses débuts. J’aurais besoin de retours sur le plan, l’introduction et les deux premières sections. Notamment, le cas d’application semble-il judicieux ? Je voulais prendre un truc un peu original, qui me permette d’intégrer un peu de narration/mise en situation. Comme vous pouvez vous en douter, je cherche un problème de régression.

De plus, je suis à la recherche d’un exemple de problème complexe (que l’être humain lui-même ne sait pas ou a du mal à faire) pour la première section. Si vous avez des idées, je suis preneur. Je pensais à la médecine, où le ML peut nous aider à comprendre les maladies, mais je n’ai pour l’instant rien trouvé.

Merci !

28/03/17 à 10h54
Modifié

"Bienheureux celui qui sait rire de lui-même, il n’a pas fini de s’amuser." Joseph Folliet

+4 -0

alliocha1805, mardi 28 mars 2017 à 11h47
Modifié

Pour les exemples (concrets et existants) il y a le cas d’analyses des electrocardiogrammes où on entraîne les médecin a déceler rapidement des pathologies sur un bout de papier avec une courbe (et en général ils y arrivent bien) mais où une intelligence artificielle y arriverait aussi surement très bien avec de l’entrainement (analyse d’image/courbe techniquement) ==> Meilleur diagnostique(en terme de fiabilité, ir une machine ca fatigue pas après 13h de garde dans un hopital) à long terme et surtout possibilité de télémedecine plus simple

PS: ton tuto(pour le profane que je suis) à l’air hyper-intéressant et je serai dans les lecteurs une fois qu’il sera fini

28/03/17 à 11h47
Modifié

+0 -0

cepus, mardi 28 mars 2017 à 15h10

C’est un très bon début je trouve.

Je pense qu’imagenet n’est pas une illustration adéquate de l’accessibilité des données. On peut probablement aider à trouver un exemple plus adapté si tu dis ici pourquoi tu penses que "les données deviennent de plus en plus accessibles", ce qui me semble contestable.
Les conifères ont des feuilles. Elles sont souvent sous la forme d’aiguille, mais quand même.

28/03/17 à 15h10

Vous aimez le frontend ? Il y a un tas de petites tâches faciles si vous voulez contribuer à ZdS : https://github.com/zestedesavoir/zds-site/issues?q=is%3Aissue+is%3Aopen+label%3AC-Front

+0 -0

Ben Dover, mardi 28 mars 2017 à 15h53

L’expression « apprentissage automatique » (ou « artificiel ») devrait être utilisée au moins une fois pour proposer une traduction de machine learning en français.

28/03/17 à 15h53

+0 -0

Vayel, mardi 28 mars 2017 à 17h04

Merci pour vos retours.

Pour les exemples (concrets et existants) il y a le cas d’analyses des electrocardiogrammes où on entraîne les médecin a déceler rapidement des pathologies sur un bout de papier avec une courbe (et en général ils y arrivent bien) mais où une intelligence artificielle y arriverait aussi surement très bien avec de l’entrainement (analyse d’image/courbe techniquement) ==> Meilleur diagnostique(en terme de fiabilité, ir une machine ca fatigue pas après 13h de garde dans un hopital) à long terme et surtout possibilité de télémedecine plus simple

Ce que tu me dis là, c’est qu’un programme peut être mieux qu’un humain. Moi je cherche un exemple d’une IA mieux qu’un programme classique.

Je pense qu’imagenet n’est pas une illustration adéquate de l’accessibilité des données. On peut probablement aider à trouver un exemple plus adapté si tu dis ici pourquoi tu penses que "les données deviennent de plus en plus accessibles", ce qui me semble contestable.

Je veux dire par là que tout le monde peut avoir accès à de gros jeux de données et peut donc s’initier au ML.

J’ai corrigé le reste, je mettrai à jour la bêta quand il y aura des changements plus conséquents.

Merci.

28/03/17 à 17h04

"Bienheureux celui qui sait rire de lui-même, il n’a pas fini de s’amuser." Joseph Folliet

+0 -0

cepus, mardi 28 mars 2017 à 17h15
Modifié

Pour revenir à imagenet, que penses-tu de

1
2

- Qui plus est, les données deviennent de plus en plus accessibles, avec des bases de données ouvertes telles que ImageNet.
+ Qui plus est, les jeux de données manuellement annotées nécessaires à l'entrainement des algorithmes deviennent de plus en plus accessibles, avec des bases de données ouvertes telles que ImageNet.

(Parce que vraiment, je pense que dire que les données deviennent de plus en plus accessible est contestable.)

28/03/17 à 17h15
Modifié

Vous aimez le frontend ? Il y a un tas de petites tâches faciles si vous voulez contribuer à ZdS : https://github.com/zestedesavoir/zds-site/issues?q=is%3Aissue+is%3Aopen+label%3AC-Front

+2 -0

Ben Dover, mardi 28 mars 2017 à 17h36

Personnellement je ferai des retours plus conséquents sur l’article quand il sera un peu plus rempli. Dans l’ensemble c’est bien parti, il faudra à mon avis essentiellement nuancer deux-trois trucs (par exemple, j’ai l’impression que tu t’apprêtes à dire que tout l’apprentissage repose sur l’optimisation, ce qui n’est pas vrai).

Je veux dire par là que tout le monde peut avoir accès à de gros jeux de données et peut donc s’initier au ML.

Vayel

Je ne sais pas à quel point tu devrais rentrer dans les détails dans ton cours, je veux juste commenter ce passage : créer un jeu de données étiquetées reste non-trivial, ce qui limite dans les faits l’applicabilité de certaines techniques d’apprentissage. Les gens qui le font ont de gros moyens et contrôlent de fait un petit peu la recherche faite sur le sujet.

D’ailleurs il y a des domaines (comme la médecine ou l’industrie) où créer un seul point coûte plusieurs milliers d’euros (par exemple quand ça demande de faire des tests sur des patients ou d’intervenir dans un processus industriel particulier), et dans ces situations on n’a tout simplement pas un volume de données suffisant pour faire du deep learning, par exemple. Selon ce que tu envisages de dire dans ton cours, ça peut valoir le coup de le mentionner.

28/03/17 à 17h36

+0 -0

Vayel, mardi 28 mars 2017 à 17h54

victor ta formulation me gêne un peu parce qu’elle fait intervenir la notion d’entrainement, encore inconnue du lecteur. Que dirais-tu de la formulation suivante ?

Qui plus est, nous avons de plus en plus de jeux importants de données à notre disposition, avec des bases ouvertes telles que ImageNet.

@Ben Dover : je suis loin d’être un expert en ML et ai une faible expérience du terrain, donc n’hésite pas à me corriger si besoin. Pour ce qui est de ta remarque sur les données, je pense que c’est hors-sujet pour ce tutoriel, mais je n’exclus pas complètement d’en parler.

28/03/17 à 17h54

"Bienheureux celui qui sait rire de lui-même, il n’a pas fini de s’amuser." Joseph Folliet

+0 -0

cepus, mardi 28 mars 2017 à 19h19

Tant que ça intervient que quelques paragraphes plus bas, je vois pas le problème, mais c’est toi qui décide.

Je ferais juste gaffe en parlant des données de plus en plus libre alors qu’énormément de gens voient les données comme de moins en moins libre. Fais aussi attention en parlant d’imagenet et de libre, certains pourraient penser qu’imagenet est constitué d’images et que ces images sont libres. C’est pas le cas.

28/03/17 à 19h19

Vous aimez le frontend ? Il y a un tas de petites tâches faciles si vous voulez contribuer à ZdS : https://github.com/zestedesavoir/zds-site/issues?q=is%3Aissue+is%3Aopen+label%3AC-Front

+0 -0

alliocha1805, mardi 28 mars 2017 à 19h27
Modifié

Alors justement cet exemple c’est une IA un polytechnicien qui fait ça de mémoire (il en avait parlé à un prof de cardio d’un pote en médecine) APrès il l’a peut être présenté comme ça pour simplifier le bousin :s

28/03/17 à 19h27
Modifié

+0 -0

cepus, mardi 28 mars 2017 à 19h54
Modifié

Je pense que reconnaitre un objet dans une image est un des meilleurs exemples actuels. Par exemple si t’as un mac, l’application Photos (fournie dans macOS, c’est un machin gratuit) inclut un gros modèle qui reconnait ~4’000 "trucs" dans tes photos. Je viens de faire un screenshot : https://imgur.com/a/gTLra Google Photos, le service (gratuit) de gestion de photos Google intégré à Google Drive, fait pareil. (Sauf que leur modèle est évidemment dans le cloud vu que c’est un service cloud.)

Tiens, tu pourrais en profiter pour mentionner les attaques où on "antagonise" les modèles de ML. Et à propos de reconnaitre des trucs dans des images, il y a la chouette anecdote de l’espace autruches-pandas. Un peu de lecture : https://codewords.recurse.com/issues/five/why-do-neural-networks-think-a-panda-is-a-vulture

28/03/17 à 19h54
Modifié

Vous aimez le frontend ? Il y a un tas de petites tâches faciles si vous voulez contribuer à ZdS : https://github.com/zestedesavoir/zds-site/issues?q=is%3Aissue+is%3Aopen+label%3AC-Front

+0 -0

melepe, mercredi 29 mars 2017 à 15h43

Hey !

Une petite remarque sur le plan, à première vue il y a beaucoup d’aspects de ML qui ne seront pas abordés (tous les algos qui n’utilisent pas de descente du gradient, tous les algos de clustering, de classification). Ce n’est pas un mal en soi, mais tu n’indiques pas que ces algos existent, ce que je trouve dommage.

Pour le reste, je suis un peu comme Ben Dover, j’attends que le tuto soit plus rempli.

Moi je cherche un exemple d’une IA mieux qu’un programme classique.

Est-ce qu’il faut que l’exemple soit un exemple pour lequel même l’humain a du mal à bien performer ? Si non, n’importe quel exemple de reconnaissance d’image fait l’affaire. Si oui, je me demande si les outils de traduction automatique (Google Translate utilise des réseaux de neurones) ferait l’affaire ? Je ne sais plus si Google Translate gère bien les expressions idiomatiques d’un langage, mais ça pourrait correspondre à ce que tu cherches.

29/03/17 à 15h43

+0 -0

Vayel, mercredi 29 mars 2017 à 17h21

Une petite remarque sur le plan, à première vue il y a beaucoup d’aspects de ML qui ne seront pas abordés (tous les algos qui n’utilisent pas de descente du gradient, tous les algos de clustering, de classification). Ce n’est pas un mal en soi, mais tu n’indiques pas que ces algos existent, ce que je trouve dommage.

J’en parlerai dans la dernière section ("prenons du recul"). Mais j’ai pas envie de faire une longue énumération que le lecteur oubliera le lendemain parce qu’il n’aura pas manipulé les notions.

Est-ce qu’il faut que l’exemple soit un exemple pour lequel même l’humain a du mal à bien performer ?

Oui, j’avais ça en tête. Mais je suis en train de voir si c’est vraiment nécessaire d’en parler.

29/03/17 à 17h21

"Bienheureux celui qui sait rire de lui-même, il n’a pas fini de s’amuser." Joseph Folliet

+0 -0

Vayel, mercredi 29 mars 2017 à 22h03
Modifié

Bonjour les agrumes !

La bêta a été mise à jour et décante sa pulpe à l’adresse suivante :

Les machines aussi peuvent apprendre

Merci d’avance pour vos commentaires.

Modifications :

Reformulation de la dernière phrase du premier paragraphe de l’introduction
Nettoyage de la deuxième section (présentation du problème), qui est dans sa version à priori définitive (pour l’instant, je n’envisage pas de la retoucher).
Rédaction de la partie "Modèle linéaire" de la section "Modélisation"

29/03/17 à 22h03
Modifié

"Bienheureux celui qui sait rire de lui-même, il n’a pas fini de s’amuser." Joseph Folliet

+1 -0

elegance, jeudi 30 mars 2017 à 20h08

Au début, je pensais le tutoriel quasiment abouti, et j’ai noté ces 2 fautes d’orthographe.

les feuillus n’en ont pas en hivers –> les feuillus n’en ont pas en hiver
où ils semblent s’abbreuver –> où ils semblent s’abreuver

Mais je vois qu’on est encore très loin de l’étape ’correction de l’orthographe’

30/03/17 à 20h08

+0 -0

adri1, dimanche 16 avril 2017 à 13h12

Moi je cherche un exemple d’une IA mieux qu’un programme classique.

Conduire une bagnole, jouer au Go, jouer au Poker, détecter les cancers de la peau… Les cas où le ML permet d’aboutir à une situation où la machine est meilleure qu’avec un programme classique et aussi bonne voire meilleure que l’humain s’empilent.

16/04/17 à 13h12

I don’t mind that you think slowly, but I do mind that you are publishing faster. — W. Pauli

+0 -0

Introduction pratique au machine learning

Pas encore membre ?