[Résolu] Traiter de très gros CSV en python • Forum • Zeste de Savoir

alliocha1805, jeudi 05 octobre 2017 à 11h23

Bonjour à tous,

J’avais une question "théorique" sur Python (et non sur un bout de code particulier) pour un mini-projet que je dois faire pour dépanner un ami :

Il cherche à filtrer un CSV de base d’adresse mail en supprimant toutes les occurrences d’adresses "pourries" que nous connaissons .

Pour ça il a deux CSV : sa base et un CSV énorme qui liste toutes les adresses "pourries"

Le but est de tous les jours prendre le fichier d’adresse et de le purger de toutes les adresses du CSV de liste pourries(environ 600 000 lignes) .

C’est pour ça que je demande votre aide dans la logique car j’ai fait un truc fonctionnel mais qui je pense pourrait être optimisé.

En gros je charge le CSV pourri dans une liste (après tout c’est un CSV à une seule colonne) et ensuite je parse le CSV de base avec pour chaque ligne un test pour savoir si l’adresse est dans ma liste. Si non j’inscrit la ligne complète dans un nouveau CSV.

Est-ce qu(’il y aurait une manière plus "propre" et surtout plus efficace en terme de temps de traitement de faire ça ?

Merci

05/10/17 à 11h23

+0 -0

entwanne, jeudi 05 octobre 2017 à 11h47

Salut,

Ça dépend de la taille de ce que tu appelles énorme : est-ce que ça tient sans problème en mémoire ? Sinon, il faudra t’orienter vers une base de données.

Ce qui peut être intéressant, aussi, c’est d’utiliser une approche probabiliste type filtre de Bloom pour éviter trop de requêtes sur la grosse liste. Tu peux savoir avec certitude qu’un élément n’est pas dans la liste. Et tu peux facilement éliminer les faux positifs en vérifiant pour chaque cas indiqué.

05/10/17 à 11h47

entwanne — @entwanne.bsky.social — Un zeste de Python — La POO en Python — Notions de Python avancées

+0 -0

alliocha1805, jeudi 05 octobre 2017 à 11h48

Ba est-ce que ça tiens en mémoire je sais pas . Je sais que la "grosse" liste ferra au fur et a mesure du temps entre 600 000 et 1 000 000 d’adresse mail . Faut passer par une BDD pour un volume de ce type ?

Pour l’autre solution je vais chercher sur internet voir si ça peut aider

05/10/17 à 11h48

+0 -0

entwanne, jeudi 05 octobre 2017 à 12h00
Modifié

Ça n’est pas une autre solution, c’est complémentaire. Ça évite des requêtes à tout bout de champ (tu ne les conserves qu’en cas de doute).

Un million d’adresses ce n’est pas énorme. Je crois que le grand maximum pour la longueur d’une adresse email, c’est 320 octets. Donc ça doit prendre quelques centaines de Mo en mémoire, grand maximum (c’est déjà beaucoup, mais ça tient largement sur les architectures actuelles).

05/10/17 à 12h00
Modifié

entwanne — @entwanne.bsky.social — Un zeste de Python — La POO en Python — Notions de Python avancées

+1 -0

anonyme, jeudi 05 octobre 2017 à 13h10
Modifié

Salut,

1 million d’adresses, c’est rien du tout. Si la base rentre aussi en mémoire, tu fais deux set et il reste plus qu’à faire la soustraction entre les deux. Si la base rentre pas en mémoire, fait la même chose par morceaux. Tu n’auras pas plus rapide en Python natif.

05/10/17 à 13h10
Modifié

+3 -0

Saroupille, jeudi 05 octobre 2017 à 13h56

D’après ce que tu dis dans ton premier post, je suis plus inquiet par le coût en temps que par le coût en espace.

Je te conseille plutôt d’utiliser un dictionnaire (table de hashage) ou bien un set pour avoir de meilleurs performances.

Avec un dictionnaire, le coût mémoire devrait être amoindri en plus.

05/10/17 à 13h56

+0 -0

anonyme, jeudi 05 octobre 2017 à 18h37

D’après ce que tu dis dans ton premier post, je suis plus inquiet par le coût en temps que par le coût en espace.

Même pas, ce code :

import random
a = set(random.randrange(10000000) for _ in range(1000000))
b = set(range(1000000))
c = a - b

s’exécute en 1.5 secondes sur ma machine, dont une seconde dépensée à générer le million de nombres aléatoires.

Clairement, ce qui va limiter les performances, ce n’est pas la soustraction ni la création des set mais la lecture en elle-même des fichiers. Et dans tous les cas, pour une tâche ponctuelle (une fois par jour si j’ai bien compris), ce ne sera pas critique du tout.

05/10/17 à 18h37

+0 -0

Saroupille, jeudi 05 octobre 2017 à 18h41

Oui mais tu utilises des set, je ne suis pas sûr que tu obtiennes les mêmes performances pour des listes.

05/10/17 à 18h41

+0 -0

anonyme, jeudi 05 octobre 2017 à 18h44

C’est pour ça que j’utilise des set à la place des listes, parce que c’est fait pour ça. Il n’y a rien dans l’énoncé du problème qui l’interdise.

05/10/17 à 18h44

+0 -0

Saroupille, jeudi 05 octobre 2017 à 18h47
Modifié

Ok du coup il y a une incompréhension. Je m’adressais à @alliocha1805 dans ma première réponse et pas à toi. C’est d’ailleurs pour ça que je parle de set mais j’aurais dû être plus explicite en insistant sur ta réponse.

05/10/17 à 18h47
Modifié

+0 -0

anonyme, jeudi 05 octobre 2017 à 19h05

Ah d’accord, je comprends mieux, désolé. Oui en effet, comparer des listes risques d’être plutôt lent…

05/10/17 à 19h05

+0 -0

alliocha1805, vendredi 06 octobre 2017 à 10h13

Merci pour l’idée des set . Jamais utilisé çà et c’est justement pour ca que je venais poser la question : je sais résoudre le problème mais de manière "crade" et je voulais savoir s’il n’y avait pas plus propre (en plus ça me ferra apprendre un truc !)

Sur Stackoverflow j’ai aussi vu beaucoup de gens recommander Panda et importer le CSV dans un tableau panda pour aller plus vite que de lire le csv ligne par ligne et l’importer avec le module csv . Ca vous parait une autre bonne solution ?

06/10/17 à 10h13

+0 -0

anonyme, vendredi 06 octobre 2017 à 10h16

Ce n’est pas une autre solution, c’est une autre partie de la solution. Le lecteur pandas est en effet rapide (à condition de jouer un peu avec les options), donc lire le csv avec pandas puis utiliser des set semble une bonne solution.

06/10/17 à 10h16

+0 -0

alliocha1805, vendredi 06 octobre 2017 à 10h55

Je vais tester ça dès que l’intéressé m’aura envoyé ces fichiers alors (histoire de connaitre la structure de ses CSV avant de lancer un dev).

Merci en tout cas !

06/10/17 à 10h55

+0 -0

alliocha1805, mardi 24 octobre 2017 à 23h35
Modifié

Je profite du sujet pour revenir sur mon problème que j’ai visiblement résolu mais finalement c’est pas l’import qui a pris un temps monstre mais la comparaison.

Du coup j’ai importé chaque CSV dans une liste (et pas un set) car sur Stackoverflow yavait pas mal de poste expliquant que "les comprhension de liste ca deboite ca va trop vite tout ca tout ca"

DU coup je me retrouve a comparer mes deux listes dans une toisième liste avec un code du style:

liste_propre=[item for item in base if item not in spam]

Mon script marche et tout mais ma question c’est : la génération de cette liste à pris 3h30 pour comparer une liste d’1millions d’éléments et une liste de 850 000 éléments . Ça vous parait normal ou pas (alors que l’import cracra à pris genre 1min30)?

Me suis-je fait flouer par Stackoverflow (parceque du coup jetai parti sur les set mais les multiples post disant de faire le contraire m’ont poussé vers l’autre solution)?

24/10/17 à 23h35
Modifié

+0 -0

anonyme, mardi 24 octobre 2017 à 23h56

Du coup j’ai importé chaque CSV dans une liste (et pas un set) car sur Stackoverflow yavait pas mal de poste expliquant que "les comprhension de liste ca deboite ca va trop vite tout ca tout ca"

Bah aussi, si tu ne fais pas ce qu’on te dit… :-° Les set sont construits pour résoudre le problème que tu as. Quelque chose me dit que les postes de StackOverflow qui conseillaient d’utiliser des listes n’étaient pas sur le même genre de question. Au pire, tu avais toujours la doc pour être sûr…

24/10/17 à 23h56

+0 -0

entwanne, mercredi 25 octobre 2017 à 01h05

yavait pas mal de poste expliquant que "les comprhension de liste ca deboite ca va trop vite tout ca tout ca"

alliocha1805

Si ce n’est que ça tu as aussi les ensembles en intension, c’est comme pour les listes, mais avec des ensembles.

Mais je ne vois pas en quoi une liste en intension irait plus vite qu’une autre liste.

25/10/17 à 01h05

entwanne — @entwanne.bsky.social — Un zeste de Python — La POO en Python — Notions de Python avancées

+0 -0

alliocha1805, mercredi 25 octobre 2017 à 07h46
Modifié

Dans le doute j’ai testé avec un set … ça a pris environ 1 sec a calculer l’intersection des deux .... Verdict : Zds c’est bien / Stackoverflow c’est moins bien

25/10/17 à 07h46
Modifié

+0 -1

Aabu, mercredi 25 octobre 2017 à 08h11

En vérité, les différents types sont essentiellement optimisés pour les opérations naturelles qu’ils peuvent subir. Par exemple, pour un ensemble, il s’agit des tests d’appartenance, les unions etc. Pour une liste, il s’agit plutôt du parcours séquentiel, de l’ajout en fin de liste, etc.

L’implémentation de python est plutôt bien faite, et les structures des données concrètes permettent d’obtenir les performances attendues. Autrement dit, sans vouloir m’avancer trop, je suis convaincu que les sets python ressemblent plus en interne à une hashmap qu’à un array.