Bonjour, je suis élève ingénieur et je me suis lancé dans la création d’un moteur de recherche qui indexera les pages web de Wikipédia. Actuellement, je suis en phase d’apprentissage, je dévore tous les tutos qui ont trait au sujet, notamment l’API de Wikipédia, l’utilisation des NLP, la mise en place d’un système de scoring pour classer les articles, et surtout un moyen pour faire tourner mes scripts Python dans un serveur et toutes les problématiques liées aux bases de données. Voici le lien Github de mon projet :depot github
Je cherche de l’aide, des idées, des pistes à explorer. J’ai essayé d’expliquer autant que faire se peut ce que je compte faire dans mon fichier README.
Actuellement, je suis bloqué sur un problème : je me suis rendu compte que je ne peux pas donner à l’API de Wikipédia des liens qui pointent vers Wikipédia. Du coup, mon idée de stocker tous les liens Wikipédia dans un fichier .txt puis de boucler là-dessus tombe à l’eau. Actuellement, je penche sur une solution qui consiste à récupérer dans un fichier JSON le lien et le titre de tous les articles Wikipédia et appeler la fonction wikipedia.page(title)
. Mais là encore, je dois gérer le cas où cela renverrait plusieurs titres sous prétexte que la requête n’est pas assez discriminante. À ce problème, je suggère de parcourir toutes ces nouvelles pages puis de trouver leurs URL et voir si elles ne sont pas déjà indexées dans mon fichier JSON.
Ce que je cherche, c’est surtout de nouvelles idées, des pistes à explorer. Je suis totalement ouvert aux critiques, tout est à revoir, et si quelqu’un peut m’apporter des éclaircissements sur des points, je suis preneur. Une dernière chose : je suis conscient que créer le site web avec R Shiny, ce n’est sans doute pas ce qui viendrait à l’esprit à tout dev. J’ai fait ce choix car c’est la techno la plus accessible pour un data scientist.