Les machines aussi peuvent apprendre

Introduction pratique au machine learning

a marqué ce sujet comme résolu.

Tout le monde se secoue ! :D

J’ai commencé (mardi 02 février 2016 à 10h38) la rédaction d’un tutoriel au doux nom de « Les machines aussi peuvent apprendre » et j’ai pour objectif de proposer en validation un texte aux petits oignons. Je fais donc appel à votre bonté sans limites pour dénicher le moindre pépin, que ce soit à propos du fond ou de la forme. Vous pourrez consulter la bêta à votre guise à l’adresse suivante :

Le tutoriel en est à ses débuts. J’aurais besoin de retours sur le plan, l’introduction et les deux premières sections. Notamment, le cas d’application semble-il judicieux ? Je voulais prendre un truc un peu original, qui me permette d’intégrer un peu de narration/mise en situation. Comme vous pouvez vous en douter, je cherche un problème de régression.

De plus, je suis à la recherche d’un exemple de problème complexe (que l’être humain lui-même ne sait pas ou a du mal à faire) pour la première section. Si vous avez des idées, je suis preneur. Je pensais à la médecine, où le ML peut nous aider à comprendre les maladies, mais je n’ai pour l’instant rien trouvé.

Merci !

+4 -0

Pour les exemples (concrets et existants) il y a le cas d’analyses des electrocardiogrammes où on entraîne les médecin a déceler rapidement des pathologies sur un bout de papier avec une courbe (et en général ils y arrivent bien) mais où une intelligence artificielle y arriverait aussi surement très bien avec de l’entrainement (analyse d’image/courbe techniquement) ==> Meilleur diagnostique(en terme de fiabilité, ir une machine ca fatigue pas après 13h de garde dans un hopital) à long terme et surtout possibilité de télémedecine plus simple

PS: ton tuto(pour le profane que je suis) à l’air hyper-intéressant et je serai dans les lecteurs une fois qu’il sera fini :)

+0 -0

C’est un très bon début je trouve.

  • Je pense qu’imagenet n’est pas une illustration adéquate de l’accessibilité des données. On peut probablement aider à trouver un exemple plus adapté si tu dis ici pourquoi tu penses que "les données deviennent de plus en plus accessibles", ce qui me semble contestable.
  • Les conifères ont des feuilles. Elles sont souvent sous la forme d’aiguille, mais quand même.
+0 -0

Merci pour vos retours.

Pour les exemples (concrets et existants) il y a le cas d’analyses des electrocardiogrammes où on entraîne les médecin a déceler rapidement des pathologies sur un bout de papier avec une courbe (et en général ils y arrivent bien) mais où une intelligence artificielle y arriverait aussi surement très bien avec de l’entrainement (analyse d’image/courbe techniquement) ==> Meilleur diagnostique(en terme de fiabilité, ir une machine ca fatigue pas après 13h de garde dans un hopital) à long terme et surtout possibilité de télémedecine plus simple

Ce que tu me dis là, c’est qu’un programme peut être mieux qu’un humain. Moi je cherche un exemple d’une IA mieux qu’un programme classique. :)

Je pense qu’imagenet n’est pas une illustration adéquate de l’accessibilité des données. On peut probablement aider à trouver un exemple plus adapté si tu dis ici pourquoi tu penses que "les données deviennent de plus en plus accessibles", ce qui me semble contestable.

Je veux dire par là que tout le monde peut avoir accès à de gros jeux de données et peut donc s’initier au ML.

J’ai corrigé le reste, je mettrai à jour la bêta quand il y aura des changements plus conséquents.

Merci.

+0 -0

Pour revenir à imagenet, que penses-tu de

1
2
- Qui plus est, les données deviennent de plus en plus accessibles, avec des bases de données ouvertes telles que ImageNet.
+ Qui plus est, les jeux de données manuellement annotées nécessaires à l'entrainement des algorithmes deviennent de plus en plus accessibles, avec des bases de données ouvertes telles que ImageNet.

(Parce que vraiment, je pense que dire que les données deviennent de plus en plus accessible est contestable.)

+2 -0

Personnellement je ferai des retours plus conséquents sur l’article quand il sera un peu plus rempli. Dans l’ensemble c’est bien parti, il faudra à mon avis essentiellement nuancer deux-trois trucs (par exemple, j’ai l’impression que tu t’apprêtes à dire que tout l’apprentissage repose sur l’optimisation, ce qui n’est pas vrai).

Je veux dire par là que tout le monde peut avoir accès à de gros jeux de données et peut donc s’initier au ML.

Vayel

Je ne sais pas à quel point tu devrais rentrer dans les détails dans ton cours, je veux juste commenter ce passage : créer un jeu de données étiquetées reste non-trivial, ce qui limite dans les faits l’applicabilité de certaines techniques d’apprentissage. Les gens qui le font ont de gros moyens et contrôlent de fait un petit peu la recherche faite sur le sujet.

D’ailleurs il y a des domaines (comme la médecine ou l’industrie) où créer un seul point coûte plusieurs milliers d’euros (par exemple quand ça demande de faire des tests sur des patients ou d’intervenir dans un processus industriel particulier), et dans ces situations on n’a tout simplement pas un volume de données suffisant pour faire du deep learning, par exemple. Selon ce que tu envisages de dire dans ton cours, ça peut valoir le coup de le mentionner.

victor ta formulation me gêne un peu parce qu’elle fait intervenir la notion d’entrainement, encore inconnue du lecteur. Que dirais-tu de la formulation suivante ?

Qui plus est, nous avons de plus en plus de jeux importants de données à notre disposition, avec des bases ouvertes telles que ImageNet.

@Ben Dover : je suis loin d’être un expert en ML et ai une faible expérience du terrain, donc n’hésite pas à me corriger si besoin. Pour ce qui est de ta remarque sur les données, je pense que c’est hors-sujet pour ce tutoriel, mais je n’exclus pas complètement d’en parler.

+0 -0

Tant que ça intervient que quelques paragraphes plus bas, je vois pas le problème, mais c’est toi qui décide.

Je ferais juste gaffe en parlant des données de plus en plus libre alors qu’énormément de gens voient les données comme de moins en moins libre. Fais aussi attention en parlant d’imagenet et de libre, certains pourraient penser qu’imagenet est constitué d’images et que ces images sont libres. C’est pas le cas.

+0 -0

Merci pour vos retours.

Pour les exemples (concrets et existants) il y a le cas d’analyses des electrocardiogrammes où on entraîne les médecin a déceler rapidement des pathologies sur un bout de papier avec une courbe (et en général ils y arrivent bien) mais où une intelligence artificielle y arriverait aussi surement très bien avec de l’entrainement (analyse d’image/courbe techniquement) ==> Meilleur diagnostique(en terme de fiabilité, ir une machine ca fatigue pas après 13h de garde dans un hopital) à long terme et surtout possibilité de télémedecine plus simple

Ce que tu me dis là, c’est qu’un programme peut être mieux qu’un humain. Moi je cherche un exemple d’une IA mieux qu’un programme classique. :)

Je pense qu’imagenet n’est pas une illustration adéquate de l’accessibilité des données. On peut probablement aider à trouver un exemple plus adapté si tu dis ici pourquoi tu penses que "les données deviennent de plus en plus accessibles", ce qui me semble contestable.

Je veux dire par là que tout le monde peut avoir accès à de gros jeux de données et peut donc s’initier au ML.

J’ai corrigé le reste, je mettrai à jour la bêta quand il y aura des changements plus conséquents.

Merci.

Vayel

Alors justement cet exemple c’est une IA un polytechnicien qui fait ça de mémoire (il en avait parlé à un prof de cardio d’un pote en médecine) ;) APrès il l’a peut être présenté comme ça pour simplifier le bousin :s

+0 -0

Ce que tu me dis là, c’est qu’un programme peut être mieux qu’un humain. Moi je cherche un exemple d’une IA mieux qu’un programme classique. :)

Vayel

Je pense que reconnaitre un objet dans une image est un des meilleurs exemples actuels. Par exemple si t’as un mac, l’application Photos (fournie dans macOS, c’est un machin gratuit) inclut un gros modèle qui reconnait ~4’000 "trucs" dans tes photos. Je viens de faire un screenshot : https://imgur.com/a/gTLra Google Photos, le service (gratuit) de gestion de photos Google intégré à Google Drive, fait pareil. (Sauf que leur modèle est évidemment dans le cloud vu que c’est un service cloud.)

Tiens, tu pourrais en profiter pour mentionner les attaques où on "antagonise" les modèles de ML. Et à propos de reconnaitre des trucs dans des images, il y a la chouette anecdote de l’espace autruches-pandas. Un peu de lecture : https://codewords.recurse.com/issues/five/why-do-neural-networks-think-a-panda-is-a-vulture

+0 -0

Hey !

Une petite remarque sur le plan, à première vue il y a beaucoup d’aspects de ML qui ne seront pas abordés (tous les algos qui n’utilisent pas de descente du gradient, tous les algos de clustering, de classification). Ce n’est pas un mal en soi, mais tu n’indiques pas que ces algos existent, ce que je trouve dommage.

Pour le reste, je suis un peu comme Ben Dover, j’attends que le tuto soit plus rempli. :)

Moi je cherche un exemple d’une IA mieux qu’un programme classique. :)

Est-ce qu’il faut que l’exemple soit un exemple pour lequel même l’humain a du mal à bien performer ? Si non, n’importe quel exemple de reconnaissance d’image fait l’affaire. Si oui, je me demande si les outils de traduction automatique (Google Translate utilise des réseaux de neurones) ferait l’affaire ? Je ne sais plus si Google Translate gère bien les expressions idiomatiques d’un langage, mais ça pourrait correspondre à ce que tu cherches.

Une petite remarque sur le plan, à première vue il y a beaucoup d’aspects de ML qui ne seront pas abordés (tous les algos qui n’utilisent pas de descente du gradient, tous les algos de clustering, de classification). Ce n’est pas un mal en soi, mais tu n’indiques pas que ces algos existent, ce que je trouve dommage.

J’en parlerai dans la dernière section ("prenons du recul"). Mais j’ai pas envie de faire une longue énumération que le lecteur oubliera le lendemain parce qu’il n’aura pas manipulé les notions.

Est-ce qu’il faut que l’exemple soit un exemple pour lequel même l’humain a du mal à bien performer ?

Oui, j’avais ça en tête. Mais je suis en train de voir si c’est vraiment nécessaire d’en parler.

+0 -0

Bonjour les agrumes !

La bêta a été mise à jour et décante sa pulpe à l’adresse suivante :

Merci d’avance pour vos commentaires.

Modifications :

  • Reformulation de la dernière phrase du premier paragraphe de l’introduction
  • Nettoyage de la deuxième section (présentation du problème), qui est dans sa version à priori définitive (pour l’instant, je n’envisage pas de la retoucher).
  • Rédaction de la partie "Modèle linéaire" de la section "Modélisation"
+1 -0

Au début, je pensais le tutoriel quasiment abouti, et j’ai noté ces 2 fautes d’orthographe.

  1. les feuillus n’en ont pas en hivers –> les feuillus n’en ont pas en hiver

  2. où ils semblent s’abbreuver –> où ils semblent s’abreuver

Mais je vois qu’on est encore très loin de l’étape ’correction de l’orthographe’

Connectez-vous pour pouvoir poster un message.
Connexion

Pas encore membre ?

Créez un compte en une minute pour profiter pleinement de toutes les fonctionnalités de Zeste de Savoir. Ici, tout est gratuit et sans publicité.
Créer un compte