Machine learning

a marqué ce sujet comme résolu.

Bonsoir,

J’ai une base donnée qui associe à une date (il y a un pas fixe de 1 semaine entre les dates) un facteur de qualité. J’aimerais bien faire du machine learning sur cette base de donnée pour prédire les facteurs de qualité futurs en fonction de ceux passés. Néanmoins j’ai plusieurs problèmes et je ne sais pas comment les résoudre :

  • il y a des dates ou je n’ai pas de facteurs de qualité, comment je fais alors ? Je remplis cette date avec le facteur de qualité de la date précédente ?
  • pour le moment j’ai testé la méthode Arima pour faire des prédictions. Néanmoins les résultats sont execrables et moins bons qu’une régression linéaire ! Quelle autre méthode de machine learning me conseillez vous d’utiliser ?

  • j’ai environs 500 entrées dans ma db. Quelle est le mielleur decoupage ? Jе garde 2/3 pour le training et 1/3 pour le testing ?

Merci beaucoup !

+0 -0

Est-ce qu’il y a des raisons de penser que le facteur de qualité est fonction de la date?
Si oui, nul besoin de machine learning.
Concernant les régressions linéaires, il faut partir d’un modèle ou d’une théorie que l’on cherche à valider, en espérant en faire un modèle prédictif.
Si tu as fait une régression linéaire, c’est que tu penses que la facteur de qualité est lié à une variable (ici, la date si j’ai bien compris). Que semble montrer la régression ? Que la qualité s’améliore avec le temps ? Et alors, sais-t-on comment et surtout pourquoi ?
Ce n’est pas le machine learning qui va fournir une explication …

+5 -0

Bonjour,

Tout d’abord plusieurs points importants à connaitre:

  • tes données ont été prises sur une période de 10 ans, es tu sûr de ne pas avoir eu de glissement de tes paramètres ? (glissement = modification de tes paramètres comme par exemple si tu prends le sens du mot "android" le sens associé à changé au fil du temps (robot=>système d’exploitation). Dans ton cas il se peut que le score d’il y a 10 ans ne soit pas représentatif, la méthode à t’elle changée? es tu sûr d’avoir les même paramètres cachés (ceux utilisés dans le calcul) Le biais a t’il évolué?
  • comme etherpin le fait remarquer la data science n’est pas magique et n’est pas forcément toujours une bonne idée.
  • pour tes valeurs manquantes, ce qui se fait souvent c’est d’utiliser le forward fill https://www.geeksforgeeks.org/python-pandas-dataframe-ffill/
  • tu peux tester en ajoutant des paramètres comme la variation de la valeur sur deux semaines, la moyenne des N dernières semaines …

j’ai environs 500 entrées dans ma db. Quelle est le mielleur decoupage ? Jе garde 2/3 pour le training et 1/3 pour le testing ?

Par “entrées”, tu parles de 500 séries temporelles différentes ou bien de 500 points dans une série temporelle ? J’imagine que pour parler de séparation en ensembles de test et d’apprentissage, tu es dans le premier cas, mais c’est pour être sûr d’être sur la bonne longueur d’onde. ^^

Sinon, je rejoins etherpin : je pense qu’une bonne chose à faire en premier lieu est d’avoir des hypothèses de travail, hypothèses que tu peux déjà établir en regardant tes données "à la main" : est-ce que tes observations d’une série à l’autre sont a priori indépendantes ? est-ce que on peut imaginer dégager un profil de progression commun à toutes les séries (tu parles d’une régression linéaire : est-ce que à la vue des données, ça semble être une hypothèse raisonnable ou non) ou bien les observations ont l’air (à première vue du moins) avoir des progressions sensiblement différentes d’une série à l’autre, voire de ressembler à des oscillations aléatoires ? est-ce qu’une régression linéaire fait mieux qu’un modèle constant ? Difficile d’être bien plus précis de notre côté sans avoir les données sous la main.

il y a des dates ou je n’ai pas de facteurs de qualité, comment je fais alors ? Je remplis cette date avec le facteur de qualité de la date précédente ?

Pour les valeurs manquantes, c’est un problème suffisamment courant pour que pas mal de méthodes de modélisations prennent cela en compte. Bien souvent remplacer ces valeurs par des entrées NaN permet d’utiliser sans trop d’encombre des fonctions standards dans les bibliothèques d’apprentissage statistique. Si tu penses que ce ne sera pas le cas, un bon mot clé pour trouver des pistes est celui des méthodes d’imputation de données manquantes (missing data imputation si tu es à l’aise avec l’anglais).

+0 -0
Connectez-vous pour pouvoir poster un message.
Connexion

Pas encore membre ?

Créez un compte en une minute pour profiter pleinement de toutes les fonctionnalités de Zeste de Savoir. Ici, tout est gratuit et sans publicité.
Créer un compte