- Léa,
Bonjour à tous,
Dans le cadre d’un projet scolaire, je dois analyser un jeu de données avec des patients (avec des caractéristiques : sexe, âge, fumeur 0/1, etc.) qui ont reçu différents traitements (un par patient) avec une réponse à ce traitement 1/0.
Ex :
Patient 1 | Homme | 45 ans | Fumeur 0 | Diabète 0 | Obésité 1 | Traitement A | Réponse 1
Patient 2 | Homme | 20 ans | Fumeur 1 | Diabète 0 | Obésité 0 | Traitement B | Réponse 0
Patient 3 | Homme | 57 ans | Fumeur 1 | Diabète 1 | Obésité 0 | Traitement C | Réponse 0
Patient 4 | Femme | 49 ans | Fumeur 1 | Diabète 0 | Obésité 0 | Traitement B | Réponse 0
Patient 5 | Femme | 42 ans | Fumeur 0 | Diabète 0 | Obésité 1 | Traitement A | Réponse 0
Patient 6 | Femme | 34 ans | Fumeur 0 | Diabète 0 | Obésité 0 | Traitement C | Réponse 1
Je souhaite mettre en place un modèle qui va prédire le meilleur traitement (avec la meilleur probabilité de réponse positive) à mettre en place pour chaque nouveau patient qui va arriver.
J’ai pensé à faire un modèle de prédiction (en commençant par le random forest) de réponse positive par traitement qui va me donner une probabilité, et prendre à la fin le traitement avec la plus haute probabilité. Est-ce que vous pensez que je suis sur la bonne voie ? Est-ce qu’il y a mieux à mettre en place dans ce cas de figure ?
Je ne sais pas comment tester ce modèle car le traitement prédit ne correspond pas forcément au traitement qui a réellement été donné au patient dans mon jeu de données, donc je ne peux pas connaître la réponse 0/1 à cet ensemble patient / traitement à tous les coups.
En vous remerciant par avance si vous avez des idées.