[Résolu] Problème traitement de csv croisé • Forum • Zeste de Savoir

alliocha1805, vendredi 27 mai 2016 à 17h42

Bonjour à tous,

Pour mon travail j'ai écrit un script pour croiser les données de deux CSV (en gros un presta nous donne des stats de consultation de document avec un ID par client et je dois matcher ces stats avec les VRAIS ID client.

Je souhaite ensuite inscrire dans un csv le resultat (une ligne par client avec le nombre de pages lues)

J'ai donc le code :

import csv
import os

print("Bienvenue")

compte=csv.reader(open("compte.csv","r"),delimiter=";")
consommation=csv.reader(open("presta.csv","r"),delimiter=";")
result_name="stats.csv"
result=open(result_name,"w", newline='')
writer=csv.writer(result)
id=0
nom=""
consult=0


writer.writerow(("Client","Pages lues"))

for row in compte:
    id=row[0]
    nom=row[2]
    for row in consommation:
        if row[6]==id:
            consult+=int(row[4])
    writer.writerow((nom,consult))
    consult=0

print("Calcul terminé !")
os.system("pause")

Le premier csv est de la forme (celui du presta):

1 2	date;nom revue;osef;osef;pagesvues:osef;ID-presta;osef date;nom revue;197;;1;;123456;R

Celui interne est de la forme :

1 2	num-presta;vrai ID client;nom client;.... 123456;XBA7951;PONEY LUBRIQUE;....

(les … étant pour les autres colonnes qui ne servent à rien dans l'histoire)

Le script tourne bien sans erreur et inscrit dans le csv les resultats cependant seul le premier résultat remonte les pages vues tous les autres clients sont tous à 0 (il y a + de 10000 lignes dans le vrai fichier)

Une idée de pourquoi ?

Merci

27/05/16 à 17h42

+0 -0

fred1599, vendredi 27 mai 2016 à 21h30

Bonsoir,

J'ai pas trop regardé le script, car l'information que j'attendais en lisant c'était la forme de ton fichier csv. Tu as le nom des colonnes (nom revue, num-presta, …) et je te propose de travailler avec ces noms en utilisant la classe DictReader… Elle t'évitera en particulier les problèmes de lisibilité du code dû à des nombres magiques.

Quelques remarques,

Utilises with open plutôt que open
Utiliser input("pause") plutôt que os.system("pause")

27/05/16 à 21h30

+1 -0

nohar, samedi 28 mai 2016 à 10h59

Si c'est pour croiser des infos tu ferais mieux de mettre tes utilisateurs dans une petite base de données (genre sqlite) plutôt qu'un CSV. C'est fait pour ça.

28/05/16 à 10h59

I was a llama before it was cool

+1 -0

alliocha1805, samedi 28 mai 2016 à 21h53

je n'ai pas le choix des supports de base (CSV) juste de comment les traiter

28/05/16 à 21h53

+0 -0

nohar, samedi 28 mai 2016 à 23h08

C'est un script qui est appelé souvent ? La base d'utilisateurs bouge beaucoup ? Y'a beaucoup d'entrées ?

Remplir ou mettre à jour une base sqlite automatiquement à partir d'un csv c'est pas très difficile ni spécialement coûteux. Suivant la facon dont ton script doit être exécuté, ça peut être rentable.

28/05/16 à 23h08

I was a llama before it was cool

+0 -0

alliocha1805, lundi 30 mai 2016 à 10h09

Je dois faire tourner le script une fois tous les mois sur deux fichiers avec environ 30 000 entrées cumulées .

Pour le moment un script PHP fait le taff dans un BDD sur mon ordi (pas dev par moi) mais je voulais en faire un .exe à fournir aux gens qui ont besoin de ces stats pour ne plus m'en occuper

30/05/16 à 10h09

+0 -0

nohar, mardi 31 mai 2016 à 08h33
Modifié

Bon, restons sur le csv pour commencer.

Le problème c'est qu'à aucun moment tu ne charges ta base. Voilà comment tu pourrais t'y prendre avec le csv suivant :

1
2
3

num_presta;ID_client;nom_client
123456;XX01;PLOP
234567;XX02;PLIP

L'idée est d'associer le numéro de prestataire à l'ID client :

>>> import csv
>>> id_clients = {}
>>> with open('base_clients.csv') as base_clients:
...     fieldnames = base_clients.readline().strip().split(';')
...     for line in csv.DictReader(base_clients, fieldnames=fieldnames,
...                                delimiter=';'):
...         id_clients[line['num_presta']] = line['ID_client']
... 
>>> id_clients
{'234567': 'XX02', '123456': 'XX01'}

Comme tu le vois, en utilisant un DictReader le traitement est beaucoup plus simple. Dans cet exemple je présuppose que les noms des colonnes sont donnés au début du fichier dans la première ligne : adapte en fonction de ton cas.

Tu n'as plus qu'à ouvrir ton second CSV et le parcourir en allant chercher les correspondances dans le dictionnaire id_clients. Si 30000 entrées c'est trop pour toi niveau RAM, il faudra que tu passes par une base sqlite intermédiaire, mais chaque chose en son temps.

31/05/16 à 08h33
Modifié

I was a llama before it was cool

+0 -0

alliocha1805, mardi 31 mai 2016 à 11h30

Ok merci de l'idée je vais me pencher dessus dès que je trouve le temps

31/05/16 à 11h30

+0 -0

nohar, mardi 31 mai 2016 à 23h14
Modifié

En fait suivant la nature des données et la façon dont elles se recoupent, t'aurais moyen de faire des trucs beaucoup plus fouillés que ça niveau analyse. Genre tirer des graphes d'évolution dans le temps de la consultation des revues par un client donné, avec une courbe différente par revue…

C'est un truc parfait pour la lib pandas, ou à défaut tu peux sortir plusieurs CSV importables dans excel.

Après bien sûr ça dépend de la valeur que ta boîte attribue à ce genre d'infos mais vue la tendance des entreprises se tourner vers des pratiques data-driven, ça peut être une bonne occase pour toi de marquer des points.

31/05/16 à 23h14
Modifié

I was a llama before it was cool

+0 -0

alliocha1805, mercredi 01 juin 2016 à 16h49

Thanks de l'info en plus ca peut être intéressant

01/06/16 à 16h49

+0 -0

Problème traitement de csv croisé

Pas encore membre ?