programmation map-reduce

Méthode 1 : ouvrir le fichier avec un éditeur de texte qui affiche les numéros de ligne. Constater que le numéro de ligne change à chaque nouvelle séquence.
Méthode 2 : ouvrir le fichier avec un éditeur de texte qui ne wrappe pas les lignes. Constater que les lignes sont plus longues que la largeur de l’écran, et que le premier numéro de chaque ligne suit la série 1, 2, 3...
Méthode 3 : ouvrir le fichier dans une console Python, et regarder où se situent les passages à la ligne. Constater que les séquences sont bien conclues par un \n et que le \n n’apparait qu’à la fin de chaque séquence.
Méthode 4 : head -n1 fichier.txt, constater que la première ligne du fichier s’affiche sur plusieurs lignes du terminal et correspond bien à la séquence complète.

29/03/18 à 12h18
Modifié

I was a llama before it was cool

+1 -0

anonyme, jeudi 29 mars 2018 à 12h22

Merci nohar

29/03/18 à 12h22

+0 -0

entwanne, jeudi 29 mars 2018 à 12h36

Méthode 5 : Ouvrir le fichier dans un éditeur qui affiche un backslash quand il tronque la ligne pour la continuer sur la suivante.

29/03/18 à 12h36

entwanne — @entwanne — Un zeste de Python — La POO en Python — Notions de Python avancées — Les secrets d’un code pythonique

+0 -0

anonyme, jeudi 29 mars 2018 à 12h36

Merci entwanne

29/03/18 à 12h36

+0 -0

anonyme, jeudi 29 mars 2018 à 13h15

Ce problème est résolue mais j’ai une autre question par rapport a la question. J’ai déjà ma petite idée.

Je prends le premier utilisateur et je prends ensuite ligne par ligne les autres utilisateurs et je compare les amis en commun. OK ça va marcher.

Mais lorsque je finis pour l’utilisateur 1 je dois faire aussi pour les autres utilisateur or lorsqu’on lis dans un fichier le curseur se déplace donc si je finis pour l’utilisateur 1 j’ai mon curseur qui se retrouve en dernière ligne de mon fichier comment faire pour faire la même opération pour chaque utilisateur? Merci

29/03/18 à 13h15

+0 -0

entwanne, jeudi 29 mars 2018 à 13h45

Utilise la mémoire de ta machine pour stocker les informations d’un utilisateur une fois que tu as parcouru sa ligne. Mais ce ne sera pas adapté pour paralléliser le traitement.

La comparaison dont tu parles devrait plutôt avoir lieu lors du reduce, quand tu regroupes les résultats des différents traitements.

29/03/18 à 13h45

entwanne — @entwanne — Un zeste de Python — La POO en Python — Notions de Python avancées — Les secrets d’un code pythonique

+0 -0

anonyme, jeudi 29 mars 2018 à 15h15

Or l’objectif c’est de pouvoir paralléliser le traitement. Mais ici comment on peut procéder pour que chaque nœud du cluster puisse traiter ces données et les regrouper après grâce au reduce?

Merci.

29/03/18 à 15h15

+0 -0

entwanne, jeudi 29 mars 2018 à 15h44

Peut-être que la lecture du fichier ne fait pas partie du traitement à paralléliser.

29/03/18 à 15h44

entwanne — @entwanne — Un zeste de Python — La POO en Python — Notions de Python avancées — Les secrets d’un code pythonique

+0 -0

anonyme, jeudi 29 mars 2018 à 15h54
Modifié

OK mais et si notre fichier est découper en plusieurs block par HDFS et stocker pour le traitement comment on ferais pour pouvoir avoir les amis en commun des couples d’utilisateur.

29/03/18 à 15h54
Modifié

+0 -0

anonyme, jeudi 29 mars 2018 à 17h29

Pour éviter de mettre les amis dans une liste n’est il pas possible après avoir finir la lecture de pouvoir repositionner le curseur a un endroit spécifique pour pouvoir reprendre la lecture.

29/03/18 à 17h29

+0 -0

cepus, jeudi 29 mars 2018 à 17h42
Modifié

OK mais et si notre fichier est découper en plusieurs block par HDFS et stocker pour le traitement comment on ferais pour pouvoir avoir les amis en commun des couples d’utilisateur.

melo96

Ne t’occupe pas de comment HDFS stocke le fichier. Par défaut il va le découper et stocker 3 copies de chaque bout de fichier sur différentes machines du cluster. L’intérêt d’HDFS c’est de ne pas avoir à se soucier de ça, il le fait pour toi. Quand tu demandes un fichier à HDFS, il s’arrange pour t’en donner le contenu original efficacement.

[edit] Ton problème d’amis en commun est extrêmement similaire à l’exemple canonique de MapReduce : wordcount. Au lieu de compter le nombres d’occurrences de chaque mot dans un texte, tu comptes le nombre d’occurrences d’un même numéro d’utilisateur parmi les amis de PersonneX et PersonneX+1.

29/03/18 à 17h42
Modifié

Vous aimez le frontend ? Il y a un tas de petites tâches faciles si vous voulez contribuer à ZdS : https://github.com/zestedesavoir/zds-site/issues?q=is%3Aissue+is%3Aopen+label%3AC-Front

+0 -0

anonyme, jeudi 29 mars 2018 à 18h04

Entwanne pour éviter la liste j’utilise fseek pour pouvoir revenir en arrière dans mon fichier est ce une bonne idée dans le cas de l’optimisation?.

29/03/18 à 18h04

+0 -0

nohar, jeudi 29 mars 2018 à 18h08

Entwanne pour éviter la liste j’utilise fseek pour pouvoir revenir en arrière dans mon fichier est ce une bonne idée dans le cas de l’optimisation?.

melo96

Et si tu arrêtais de penser optimisation dès le départ et que tu essayais plutôt d’avoir un code qui fonctionne ?

29/03/18 à 18h08

I was a llama before it was cool

+4 -0

anonyme, jeudi 29 mars 2018 à 18h52

Ok ces compris je vais le faire avec les listes d’abord. Merci beaucoup.

29/03/18 à 18h52

+0 -0

cepus, jeudi 29 mars 2018 à 20h07

Entwanne pour éviter la liste j’utilise fseek pour pouvoir revenir en arrière dans mon fichier est ce une bonne idée dans le cas de l’optimisation?.

melo96

Je crois pas que tu puisses faire ça. T’as compris la base de MapReduce, comment ça fonctionne ?

Tu ne vas pas revenir en arrière dans un fichier. Ton fichier tu l’ouvres une fois pour toute et tu le découpes. Ensuite tu map sur les parties (que t’as découpées), puis tu reduce pour n’obtenir qu’un résultat à partir du résultat du map de chaque partie.

29/03/18 à 20h07

Vous aimez le frontend ? Il y a un tas de petites tâches faciles si vous voulez contribuer à ZdS : https://github.com/zestedesavoir/zds-site/issues?q=is%3Aissue+is%3Aopen+label%3AC-Front

+0 -0

anonyme, lundi 09 avril 2018 à 23h13

Merci beaucoup victor.

09/04/18 à 23h13

+0 -0

Pas encore membre ?