Différentes pistes, pour corriger les données, et pas seulement les supprimer.
-
tu isoles les informations visiblement fausses, tu en sélectionnes quelques unes, et tu essaies de voir quelle est l’erreur. Exemple, une erreur fréquente, c’est que la valeur est multipliée par 100.
Du coup, pour chaque valeur aberrante, tu testes si en la divisant par 100, elle entre dans le moule.
-
tu peux aussi visualiser toutes les données sur une courbe ( combien de produits ont 1% de sel, 2%, 3% etc etc)
Si la courbe a un aspect de courbe en cloche, c’est normal.
Si la courbe a un aspect de dos de chameau : une cloche majoritaire, et une cloche secondaire … avec un peu de chance, tu vas constater que la cloche secondaire correspond à des valeurs 100 fois plus grandes que les valeurs attendues (… ou 4.14 fois plus grandes, quand les données sont mesurées en Joule et non en Calories), du coup, on voit quel ratio il faut appliquer pour corriger les données.
Ce qu’il faut, c’est appliquer un coefficient, et savoir expliquer pourquoi c’est ce coefficient qu’on a choisi. Diviser par 4.14, ça n’a aucuns sens, sauf si on parle d’énergie, et qu’on pense qu’il y a eu confusion entre Joules et Calories)
J’ai eu à traiter des milliards de données issues de saisie manuelle, on constate que certaines erreurs sont plus fréquentes que d’autres : inversion de 2 chiffres, chiffre oublié, chiffre dupliqué à tort. Et donc on pouvait implémenter des corrections du type 1225 devient 125.
Pour de la saisie manuelle, c’est une direction à suivre.
Si le processus de collecte est différent, les erreurs ne sont plus de même nature, il faut adapter.
Et enfin, il faut préciser l’objectif. Souvent, on sait corriger un certain nombre d’erreurs, mais il reste des données plus que suspectes, où on ne sait vraiment pas quoi décider. Et là, il faut en discuter avec l’utilisateur. Doit-on supprimer ces données, les remplacer par la valeur moyenne de tous les produits etc etc