Aide algorithme machine learning

Prédiction meilleur traitement

a marqué ce sujet comme résolu.

Bonjour à tous,

Dans le cadre d’un projet scolaire, je dois analyser un jeu de données avec des patients (avec des caractéristiques : sexe, âge, fumeur 0/1, etc.) qui ont reçu différents traitements (un par patient) avec une réponse à ce traitement 1/0.

Ex :

Patient 1 | Homme | 45 ans | Fumeur 0 | Diabète 0 | Obésité 1 | Traitement A | Réponse 1

Patient 2 | Homme | 20 ans | Fumeur 1 | Diabète 0 | Obésité 0 | Traitement B | Réponse 0

Patient 3 | Homme | 57 ans | Fumeur 1 | Diabète 1 | Obésité 0 | Traitement C | Réponse 0

Patient 4 | Femme | 49 ans | Fumeur 1 | Diabète 0 | Obésité 0 | Traitement B | Réponse 0

Patient 5 | Femme | 42 ans | Fumeur 0 | Diabète 0 | Obésité 1 | Traitement A | Réponse 0

Patient 6 | Femme | 34 ans | Fumeur 0 | Diabète 0 | Obésité 0 | Traitement C | Réponse 1

Je souhaite mettre en place un modèle qui va prédire le meilleur traitement (avec la meilleur probabilité de réponse positive) à mettre en place pour chaque nouveau patient qui va arriver.

J’ai pensé à faire un modèle de prédiction (en commençant par le random forest) de réponse positive par traitement qui va me donner une probabilité, et prendre à la fin le traitement avec la plus haute probabilité. Est-ce que vous pensez que je suis sur la bonne voie ? Est-ce qu’il y a mieux à mettre en place dans ce cas de figure ?

Je ne sais pas comment tester ce modèle car le traitement prédit ne correspond pas forcément au traitement qui a réellement été donné au patient dans mon jeu de données, donc je ne peux pas connaître la réponse 0/1 à cet ensemble patient / traitement à tous les coups.

En vous remerciant par avance si vous avez des idées.

+0 -0

J’avais pensé à l’algorithme ID3 en premier lieu pour commencer en faisant des classes sur les ages. Mais il existe certainement mieux.

Je ne sais pas comment tester ce modèle car le traitement prédit ne correspond pas forcément au traitement qui a réellement été donné au patient dans mon jeu de données, donc je ne peux pas connaître la réponse 0/1 à cet ensemble patient / traitement à tous les coups.

Là par-contre, ça va vraiment poser problème. L’apprentissage automatique n’est pas magique. Si les données de bases ne sont pas de qualité le résultat que tu obtiendras ne pourra pas être meilleur que les données de base1.


  1. Si tu as d’autres connaissances sur le sujet tu « peux » obtenir de meilleur résultats mais seulement mais ces performances seront plus le fruit de tes connaissances supplémentaire que du jeu de donnée de base.
+0 -0

J’ai pensé à faire un modèle de prédiction (en commençant par le random forest) de réponse positive par traitement qui va me donner une probabilité, et prendre à la fin le traitement avec la plus haute probabilité. Est-ce que vous pensez que je suis sur la bonne voie ? Est-ce qu’il y a mieux à mettre en place dans ce cas de figure ?

Léa

L’approche de prédire la probabilité de réponse à chaque traitement me semble raisonnable. En dehors des random forests, il y a aussi toute une classe de modèles qui généralisent une régression linéaire qui appliquent des fonctions non-linéaires aux entrées (par exemple GAM) ou qui permettent des interactions non-linéaires entre variables (par exemple MARS). Ça peut être aussi intéressant de regarder de ce côté là si tu as suffisamment de données.

Je ne sais pas comment tester ce modèle car le traitement prédit ne correspond pas forcément au traitement qui a réellement été donné au patient dans mon jeu de données, donc je ne peux pas connaître la réponse 0/1 à cet ensemble patient / traitement à tous les coups.

Léa

Le traitement réellement donné au patient n’est pas forcément le meilleur traitement, même si la réponse à été positive. Ce que tu veux tester, c’est à quel point ton modèle arrive à prédire si un traitement va être positif ou non. Attention à bien séparer aléatoirement tes données en un ensemble d’entrainement et un ensemble de validation pour pouvoir vérifier que ton modèle n’a pas de problèmes de surapprentissage.

Connectez-vous pour pouvoir poster un message.
Connexion

Pas encore membre ?

Créez un compte en une minute pour profiter pleinement de toutes les fonctionnalités de Zeste de Savoir. Ici, tout est gratuit et sans publicité.
Créer un compte