Chargement de fichier de taille conséquent avec pandas python

anonyme, samedi 21 juillet 2018 à 11h29

Bonjour chers amis j’ai un problème avec mon application développé avec python3.4 et pandas. Au fait lorsque je veux charger un fichier qui fait 8 millions de ligne il n’arrive tandis que je peux charger un fichier de 10 millions sur rstudio pouvez vous me donner des idées me permettant de charger des fichiers de grande taille ?

Merci pour vos réponses.

21/07/18 à 11h29

+0 -0

ache, samedi 21 juillet 2018 à 12h51

Il n’y arrive pas ? Quel est le problème ?

21/07/18 à 12h51

ache.one 🦹 👾 🦊

+0 -0

anonyme, samedi 21 juillet 2018 à 16h44

Lorsque je charge les données il me dit memoryError aux bout d’un certains moments.

Merci

21/07/18 à 16h44

+0 -0

anonyme, samedi 21 juillet 2018 à 16h48

Salut,

Tu le charges comment, ton fichier ?

21/07/18 à 16h48

+0 -0

anonyme, samedi 21 juillet 2018 à 16h55

Salut je le charge en utilisant le code suivant:

import pandas as ps
self.dataFrame = ps.read_table(self.nomFichier, sep=";", encoding="latin-1")

Merci

21/07/18 à 16h55

+0 -0

anonyme, samedi 21 juillet 2018 à 17h03

Tu as essayé d’utiliser les options memory_map=True et engine='c' qui devraient diminuer l’empreinte mémoire de cette function ? Je me sers régulièrement de pandas pour charger des CSV de plusieurs millions de lignes, et en regardant le code je me sers de ces options.

21/07/18 à 17h03

+0 -0

anonyme, samedi 21 juillet 2018 à 18h24

🐼

21/07/18 à 18h24

+0 -0

anonyme, samedi 21 juillet 2018 à 19h16

ces compris adri1 je vais essayer ça pour voir merci.

21/07/18 à 19h16

+0 -0

anonyme, samedi 21 juillet 2018 à 19h52

j’ai essayer en ajoutant les options spécifiées j’obtiens toujours la même erreur

Traceback (most recent call last):
  File "C:\Python34\projet.py", line 968, in uploadFile
    self.dataFrame = ps.read_table(self.nomFichier, sep=";", memory_map=True, engine='c', encoding="latin-1")
  File "C:\Python34\lib\site-packages\pandas\io\parsers.py", line 705, in parser_f
    return _read(filepath_or_buffer, kwds)
  File "C:\Python34\lib\site-packages\pandas\io\parsers.py", line 451, in _read
    data = parser.read(nrows)
  File "C:\Python34\lib\site-packages\pandas\io\parsers.py", line 1065, in read
    ret = self._engine.read(nrows)
  File "C:\Python34\lib\site-packages\pandas\io\parsers.py", line 1828, in read
    data = self._reader.read(nrows)
  File "pandas\_libs\parsers.pyx", line 894, in pandas._libs.parsers.TextReader.read
  File "pandas\_libs\parsers.pyx", line 916, in pandas._libs.parsers.TextReader._read_low_memory
  File "pandas\_libs\parsers.pyx", line 993, in pandas._libs.parsers.TextReader._read_rows
  File "pandas\_libs\parsers.pyx", line 1122, in pandas._libs.parsers.TextReader._convert_column_data
  File "pandas\_libs\parsers.pyx", line 1167, in pandas._libs.parsers.TextReader._convert_tokens
  File "pandas\_libs\parsers.pyx", line 1215, in pandas._libs.parsers.TextReader._convert_with_dtype
  File "pandas\_libs\parsers.pyx", line 1905, in pandas._libs.parsers._try_int64
MemoryError

Merci vos réponses

21/07/18 à 19h52

+0 -0

nohar, dimanche 22 juillet 2018 à 09h06
Modifié

Quelle est la taille de ce fichier en octets, et quelle est la quantité de RAM disponible sur ta machine ?

Sous quel OS tournes-tu ? Si c’est autre chose que windows, que retourne la commande ulimit -a ?

22/07/18 à 09h06
Modifié

I was a llama before it was cool

+0 -0

disedorgue, dimanche 22 juillet 2018 à 10h30
Modifié

Bonjour, et en complément des questions de nohar, es-tu en 32 bits où 64 bits ? Et même si ton OS est en 64 bits, est-ce aussi le cas pour ton python ?

22/07/18 à 10h30
Modifié

+0 -0

anonyme, dimanche 22 juillet 2018 à 10h37

Mon fichier fait 8000 Mo et j’ai une mémoire RAM de 8G, je suis sur windows8.1. Mon python est en 32bits et mon os est en 64 bits.

Merci pour vos différentes réponses.

22/07/18 à 10h37

+0 -0

ache, dimanche 22 juillet 2018 à 11h22

Arf, c’est limite. Tu devrais vraiment essayer Python 64bits. Mais si ton fichier fait déjà 8Go, ça va être dur de le faire tenir en RAM avec exactement 8Gio de RAM.

22/07/18 à 11h22

ache.one 🦹 👾 🦊

+0 -0

nohar, dimanche 22 juillet 2018 à 13h05
Modifié

Ok, c’est ce que je craignais. La dataframe que tu essayes de générer a une taille proportionnelle à celle de ton fichier.

Concrètement : tu ne peux pas faire tenir toutes ces données dans la mémoire de ton ordinateur. Si tu veux faire des calculs dessus, il faut les faire à la volée en lisant le fichier itérativement. Je ne sais si pandas peut faire ça.

22/07/18 à 13h05
Modifié

I was a llama before it was cool

+1 -0

anonyme, dimanche 22 juillet 2018 à 13h14

C’est ce que fait pandas par défaut, en fait. Voir le paramètre low_memory de la doc.

Par contre, peut être que tu pourrais utiliser iterator pour obtenir un dataframe lui-même organisé en chunks.

22/07/18 à 13h14

+0 -0

disedorgue, dimanche 22 juillet 2018 à 15h45

Juste comme ça:

Quel est ton besoin de charger tout le fichier en mémoire ?

Tu ne peux pas le traiter linéairement ?

22/07/18 à 15h45

+0 -0

yoch, dimanche 22 juillet 2018 à 20h05

8 millions de lignes pour 8 Go, ça fait 1 ko la ligne. C’est beaucoup. Il contient quoi ton csv ?

22/07/18 à 20h05

+0 -0

anonyme, dimanche 22 juillet 2018 à 20h34
Modifié

je crois que je vais le traiter par blocs ça sera meilleur. Mon objectif est de pouvoir développer un logiciel capable de pouvoir traiter des données volumineuses sur des ordinateurs qui n’ont pas assez de mémoire RAM donc je cherche des techniques pour y parvenir.

22/07/18 à 20h34
Modifié

+0 -0

nohar, dimanche 22 juillet 2018 à 20h43

C’est la meilleure chose à faire. Si tu veux te familiariser avec cette facon de traiter les données, joue un peu avec la fonction reduce de Python (ou fold dans n’importe quel langage fonctionnel).

Ca t’habituera à penser avec un état que tu mets à jour en permanence pendant toute la durée de vie d’une boucle, et ça devrait pas mal t’armer pour ce genre de traitements.

22/07/18 à 20h43

I was a llama before it was cool

+0 -0

anonyme, dimanche 22 juillet 2018 à 20h50

OK merci nohar je vais essayer de procéder ainsi, donc si je comprends bien je prend un block de données je fais le traitement qu’il y a faire je le stock sur le disque dur , je procède ainsi jusqu’a ce que le fichier soit terminer.

22/07/18 à 20h50

+0 -0

nohar, dimanche 22 juillet 2018 à 21h02
Modifié

C’est pas tout à fait ça.

Imagine que tu veuilles avoir en memoire la moyenne d’une infinité de nombres.

Tu vas chercher à la calculer au fur et à mesure :

en comptant le nombre d’éléments qui passent n
en mettant à jour la variable moyenne = (moyenne * (n-1) + nombre) / n

Cela ne te demande que de stocker deux nombres en mémoire au lieu de 8 millions de nombres. Tu traites les données à la volée, une par une.

22/07/18 à 21h02
Modifié

I was a llama before it was cool

+0 -0

Pas encore membre ?