ça fait un moment que je n'ai pas donné de nouvelle sur le développement de cette ZEP. J'ai eu un peu de mal à dégager du temps de libre pour avancer dessus. Mais si vous jetez un œil à la mise à jour des cases du premier post, vous verrez que ça commence à verdir pas mal.
Le parsing des logs, le filtrage et le stockage des logs est développé et fonctionnel. L'étape finale va être de benchmarker cette partie par rapport aux moteurs InnoDB et MyISAM.
Étant donné que ce code devra être testé par la suite, j'ai écrit un script qui permet de générer un fichier access-log fictif en passant juste en paramètre le nombre de lignes voulues (ce qui me permettra donc de faire facilement des tests de charges). Donc on a un fichier de log fictif qui est généré, un script permet de parser ledit fichier et d'identifier les urls relatives à du contenu, pour ensuite stocker la log ainsi que l'identifiant de son contenu dans zds. J'ai codé cette partie en prenant en compte le fait que la forme d'une url peut varier dans le temps (cc zep12), donc je considère les étapes 1,2 et 3 presque finies.
J'ai commencer l'API, je n'ai pas vu de mauvaises surprises par rapport à ce qui était prévu, donc c'est une simple question de temps pour cette partie. Cependant, une question qui m'est venue à l'esprit, et je pense que vous pourrez m'aider à y répondre c'est la suivante :
Comment identifier un visiteur unique ? L'approche naïve voudrait qu'on considère qu'un visiteur unique est identifié par son adresse IP. Cependant, on sait bien que dans les écoles, les entreprises ou même des foyers, il y a de nombreux utilisateurs qui partagent la même IP. Du coup, il faudrait composer l'adresse IP avec autre chose, mais quoi ? le navigateur utilisé ? le device utilisé ?