Mews

Moteur de recherche d'actualités meilleur que Google news

a marqué ce sujet comme résolu.

Bonjour à tous,

Aujourd’hui je vais vous présenter un projet très ambitieux sur lequel j’ai commencé à travailler.

Il s’agit d’un moteur de recherche spécialisé dans les actualités qui a pour but d’être meilleur que Google news. :-°

Pourquoi créer un autre moteur de recherche d’actualités

Le problème de Google news

C’est vrai qu’on peut se demander pourquoi mettre en place un moteur de recherche d’actualités quand un site comme Google news existe.

  • Personnellement quand j’essaie de suivre les dernières actualités avec Google news sur certains sportifs par exemple, j’obtiens des articles de sites datant parfois de plusieurs jours, alors que parfois de nouvelles actualités peuvent apparaître plusieurs fois par jours.
  • Ensuite les actualités ne sont pas classées par date chronologique mais par ce que juge Google news comme étant le plus pertinent. Or quand je regarde les actualités, j’aime bien avoir les derniers articles, c’est d’ailleurs pour ça que je vais même jusqu’à préférer Twitter à Google news.
  • De plus, la façon dont Google news affiche les articles n’est pas idéale, il en affiche 2/3 sur l’écran et on est obligé de faire défiler la page voire d’aller sur la page suivante pour avoir plus d’actualités.
  • Enfin Un autre défaut de Google news est son algorithme qui juge la pertinence d’un site en partie en fonction de sa popularité et de l’utilisateur ce qui conduit à deux problèmes majeurs. Tout d’abord il y a de plus en plus de petits blogs qui proposent des articles souvent à mes yeux de meilleurs qualités que des gros sites. (Par exemple je préfère souvent les analyses de blogueurs sportifs que celles des gros site comme l’équipe). Ensuite Google news a la fâcheuse tendance à enfermer les gens dans leur bulles ce qui est en mon sens une des problématiques les plus graves sur internet actuellement et beaucoup de gros site (Google, Facebook, Twitter, Amazon, Youtube…) contribue à ce phénomène. Pour des actualités sportifs c’est pas très importantes, en revanche ça l’est beaucoup plus pour des actualités de type politique ou sociétales comme par exemple lorsqu’il s’agit d’actualités sur certaines lois, situation géopolitiques, ect. Une personne utilisant Google news se verra au fil du temps proposer des actualités qui ira très souvent dans le sens de son opinion et ce phénomène de bulle est à mon sens une des raisons qui explique pourquoi autant de personnes ont été surprises des résultats des dernières élections.

Le problème des alternatives existantes à Google news

Comme je l’ai mentionné auparavant Twitter et Facebook peuvent dans une certaines mesure être une bonne alternative à Google news, mais ils souffrent d’autres défauts et contribuent aussi au phénomène de bulles dont j’ai parlé précédemment. Un site que j’aime beaucoup utiliser pour rechercher des actualités sportifs est newsnow.co.uk. La mise en page de sa version mobile est bien faite (contrairement à sa version bureau), les actualités sont classées dans l’ordre décroissante de leur date de publication sans tenir compte d’un quelconque pseudo algorithme de pertinence ni d’un profil utilisateur, ce qui permet de découvrir des sites très divers et d’éviter un phénomène de bulles. Cependant newsnow a lui aussi des défauts, déjà il propose pleins de catégories pour classifier sa recherche et de fonctionnalités qui sont assez incompréhensible. Ensuite comme c’est un site anglais, il est assez orienté vers les nouvelles du monde anglophone (Royaume-Uni, USA, Australie…).

Les fonctionalités de mews

Mews sera dans un premier temps axé sur les actualités francophones (dans le futur d’autres langues seront ajoutées). La mise en page sera simpliste et assez proche de ce qu’on obtient lorsqu’on fait une recherche sur newsnow.co.uk avec la dates des actualités classées des plus récentes au plus anciennes (sans les catégories et autres éléments superflu ou incompréhensibles), par contre j’utiliserai pas le même jeu de couleur. Je met une capture d’écran d’une partie des résultats de newsnow.co.uk (vous pouvez voir que contrairement à Google news on a un meilleur aperçu des dernière actualités).

extrait des résultats de recherche de newsnow.co.uk

Ensuite comme dit précédemment news ne se basera pas sur une prétendue pertinence mais sur la date de publication des actualités. Le but sera de référencer un maximum de site proposant des actualités.

Je vais aussi faire comme newsnow.co.uk et permettre la recherche seulement sur les sujets précis (ex: Tony Parker, Christiano Ronaldo, Barack Obama, Guerre en Syrie, Réchauffement climatique, Google…) et non sur un ensemble de mots clés saisie au hasard par l’utilisateur. (L’utilisateur pourra saisir des mots dans un formulaire de recherche et si ça se rapproche d’un sujet il obtiendra des résultats comme avec newsnow.co.uk).

Avancement

Pour l’instant le projet n’en est qu’à ses balbutiements et le but sera de mettre en place dans un premier temps une version simple et fonctionnelle du site adaptée aux appareils mobile et de bureau.

Si vous avez des question ou des remarques, n’hésitez pas à les poster. :D

+0 -0

Ensuite comme dit précédemment news ne se basera pas sur une prétendue pertinence mais sur la date de publication des actualités. Le but sera de référencer un maximum de site proposant des actualités.

Ça ne va pas résoudre le problème du "avoir 10 000 articles sur le meme sujet" et noyer les quelques sujets différents.

Google news est très loin d’être parfait mais vu le fonctionnement de la presse aujourd’hui, il me semble indispensable qu’un site de ce type cherche a regrouper les news "équivalentes"/sur le même sujet. Sinon ce sera vite inutile.

Salut ! Techniquement, tu vas t’y prendre comment ? Comment vas-tu "trouver" le contenu ? L’indexer ? Le classer ?

victor

Salut,

Techniquement je vais sûrement m’inspirer de la façon dont procède le site newsnow.co.uk (comme ils ont réussi à le faire, c’est la preuve que c’est possible). Plus d’information ici http://www.newsnow.co.uk/help

D’après ce que je comprends newsnow.co.uk a une liste de plusieurs milliers de sites d’actualités qu’il parcourt pour détecter quand un nouvel article sort et va le lier avec le ou les bons thèmes de recherche (ex: sport, basket, Tony Parker…).

De mon point de vue, cela implique plusieurs choses:

  • Mettre en place un système qui va continuellement mettre à jour la liste des sites qui proposent des actualités. Cela peut impliquer de créer un logiciel qui va faire du "web scraping" https://fr.wikipedia.org/wiki/Web_scraping et rentrer l’adresse URL de ces sites dans une base de données. Il est aussi possible dans un premier temps que je rentre les sites d’actualités manuellement dans la base de données ou que j’utilise une approche semi-automatique.
  • Parcourir très régulièrement ces sites pour détecter quand ils sortent un nouvel article. Là aussi avec un logiciel de "web scraping" qui va regarder dans la base de données les adresses URL des sites d’actualités que j’avais indexés pour extraire leurs derniers articles avec leur date de publication. Dans la base de données on aura alors en plus de l’adresse URL des sites d’actualités, l’adresse URL des articles avec leur date de publication.
  • Créer une liste de thèmes sur lesquels sera basée la recherche. J’ai quelques idées sur comment faire, j’y reviendrai plus bas.
  • Lier les articles et les thèmes entre eux. Là j’utiliserai un logiciel qui va analyser les mots de l’article pour déterminer quels sont les thèmes pertinents. Dans la base de données pour chaque article en plus de sa date de publication et son adresse URL on aura la liste des thèmes auxquels il est lié.
  • Quand l’utilisateur tape un ensemble de mots dans le formulaire de recherche, le système détectera le thème le plus proche s’il existe et ira chercher pour ce thème les articles avec une date de publication la plus récente dans la base de données.

Pour la mise en place des thèmes, j’ai pensé à plusieurs solutions.

  • Les entrer manuellement.
  • Donner la possibilité à l’utilisateur de les entrer.
  • Faire du "web scraping" sur le site newsnow.co.uk et récupérer les thèmes qu’il utilise.
  • Utiliser un logiciel se basant sur une méthode d’apprentissage automatique non-supervisée pour détecter automatiquement comment classifier les articles et quels sont les thèmes de classification. Ça à l’air compliqué à mettre en œuvre, mais je suis justement en train de travailler en parallèle sur des algorithmes d’apprentissage automatique.

Ensuite comme dit précédemment news ne se basera pas sur une prétendue pertinence mais sur la date de publication des actualités. Le but sera de référencer un maximum de site proposant des actualités.

Ça ne va pas résoudre le problème du "avoir 10 000 articles sur le meme sujet" et noyer les quelques sujets différents.

Google news est très loin d’être parfait mais vu le fonctionnement de la presse aujourd’hui, il me semble indispensable qu’un site de ce type cherche a regrouper les news "équivalentes"/sur le même sujet. Sinon ce sera vite inutile.

Kje

Je ne suis pas d’accord avec la prémisse disant qu’il y aura trop d’actualités et qu’il faudra les filtrer. Quand j’utilise newsnow.co.uk ou Google news, je trouve justement qu’il y a pas assez d’actualités sur une courte période (par exemple sur la dernière heure). Après de ce que j’ai lu sur le fonctionnement de newsnow.co.uk (voir le lien en haut), il s’avère effectivement qu’il applique un filtre pour prendre les articles les plus pertinents.

Si je vois qu’il y a effectivement trop d’articles à afficher sur un thème à une période donnée, (par exemple de manière arbitraire plus de 20 articles publié dans la dernière heure), alors oui je mettrai en place une méthode de filtre certainement basé sur la pertinence. Après je resterai toujours sur mes positions dans le sens où ce filtrage par pertinence ne sera pas basé sur l’utilisateur (son historique, ses pseudo-préférences, …) mais sur l’article en lui-même afin d’éviter les phénomènes de bulles dont j’avais parlé précédemment.

En tout cas merci pour vos retours, n’hésitez à me faire d’autres remarques ou suggestions.

+0 -0

Ce que je reproche ce n’est pas d’avoir plusieurs articles sur la même thématique général mais que souvent il y a un article (quasi identique) dans chaque journal sur la même nouveauté. La majorité des journaux reprennent par exemple presque toutes les dépêches de l’AFP en la reformulant a peine. A chacune tu va avoir 20 articles quasi identiques. Perso si je suis sur un site de news et je m’intéresse à l’actualité de "M. Foo", et que ces derniers jours il a fait "popo" et "pipi", je m’attends à ce que tous les articles qui parlent de son "popo" soient regroupés et que tous les articles qui parlent de son "pipi" aussi. En général, si le sujet m’intéresse, je vais en lire seulement un sur chaque thème. Mais j’ai pas besoin que tu m’affiche 25 news "M. Foo a fait popo" puis 30 news "M. Foo a fait pipi". C’est beaucoup trop de bruit.

Je ne dit pas que c’est facile. En réalité ton projet est très complexe si tu veux que ça marche bien (rien qu’a crawler les sites de press pleins de pub ça va être la misère pour récupérer les infos utiles). Mais il y a forcément des groupements à faire pour éviter le bruit.

Ce que je reproche ce n’est pas d’avoir plusieurs articles sur la même thématique général mais que souvent il y a un article (quasi identique) dans chaque journal sur la même nouveauté. La majorité des journaux reprennent par exemple presque toutes les dépêches de l’AFP en la reformulant a peine. A chacune tu va avoir 20 articles quasi identiques. Perso si je suis sur un site de news et je m’intéresse à l’actualité de "M. Foo", et que ces derniers jours il a fait "popo" et "pipi", je m’attends à ce que tous les articles qui parlent de son "popo" soient regroupés et que tous les articles qui parlent de son "pipi" aussi. En général, si le sujet m’intéresse, je vais en lire seulement un sur chaque thème. Mais j’ai pas besoin que tu m’affiche 25 news "M. Foo a fait popo" puis 30 news "M. Foo a fait pipi". C’est beaucoup trop de bruit.

Je ne dit pas que c’est facile. En réalité ton projet est très complexe si tu veux que ça marche bien (rien qu’a crawler les sites de press pleins de pub ça va être la misère pour récupérer les infos utiles). Mais il y a forcément des groupements à faire pour éviter le bruit.

Kje

Ah oui d’accord je comprends mieux ce que tu voulais dire. Effectivement il serait peut-être judicieux de limiter le nombre d’articles redondant si y en a trop sur un même intervalle de temps.

Après outre le fait de devoir définir ce que veux dire formellement "deux articles redondant" et définir le nombre limite d’article quasiment identique sur un intervalle de temps à définir aussi, je compte m’occuper de ça vers la fin quand j’aurai quelque chose de fonctionnelle afin de voir si en effet il y a des articles redondants et à quel point cela perturbe l’expérience utilisateur.

Après outre le fait de devoir définir ce que veux dire formellement "deux articles redondant" et définir le nombre limite d’article quasiment identique sur un intervalle de temps à définir aussi, je compte m’occuper de ça vers la fin quand j’aurai quelque chose de fonctionnelle afin de voir si en effet il y a des articles redondants et à quel point cela perturbe l’expérience utilisateur.

izaa

Sans définir de limite, tu peux toujours les "regrouper" à la manière de Google News.

Image utilisateur

Ils ont l’air de proposer des pistes de recherche intéressantes ici pour élaborer un tel algorithme.

Hey !

Je ne sais pas si tu as déjà commencé ton système de recherche mais voilà il y a quelques temps pour un projet perso j’avais trouvé ça. Je ne suis pas allé au bout de ma lecture mais cela t’aidera surement à classifier les articles par catégories et créer les mots clefs dont tu aura surement besoin pour les recherches.

Chronologiquement, avant de classer les articles, il y a l’aspect WebScraping. Il y a effectivement des logiciels existants, mais je ne suis pas sûr qu’ils soient suffisants pour le besoin.

Si tu réussis ce challenge, tu devrais pouvoir lever des fonds pour financer la suite du projet. Cf ici pour illustrer le propos.

Le web scraping en sois ce n’est pas compliqué tu pourrais faire ton propre algo de "base". Il faut juste avoir les ressources suffisantes sur ses machines.

JulesMichael

Euh. Rien qu’identifier le contenu de l’article ou sa date c’est pas toujours évident suivant le site (tous ne sont pas bien formés, loin de là), alors en extraire le sujet pour pouvoir regrouper tous les articles sur un même thème, c’est tout sauf facile.

Après outre le fait de devoir définir ce que veux dire formellement "deux articles redondant" et définir le nombre limite d’article quasiment identique sur un intervalle de temps à définir aussi, je compte m’occuper de ça vers la fin quand j’aurai quelque chose de fonctionnelle afin de voir si en effet il y a des articles redondants et à quel point cela perturbe l’expérience utilisateur.

izaa

Sans définir de limite, tu peux toujours les "regrouper" à la manière de Google News.

Image utilisateur

Ils ont l’air de proposer des pistes de recherche intéressantes ici pour élaborer un tel algorithme.

ThuleMalta

Merci pour le lien, je regarderai. Après je ne suis pas fan de cette mise en page où les "sous-articles" ont beaucoup moins d’importance visuelle que l’article principal. Dans l’idéal j’aimerai que tout les liens des articles soient présentées de manière équitable comme sur la capture d’écran de newsnow.co.uk que j’avais montré dans mon premier post. Après je me demande si les gens vont cliquer sur les "sous-articles" donc je me dis autant ne pas les afficher.

Hey !

Je ne sais pas si tu as déjà commencé ton système de recherche mais voilà il y a quelques temps pour un projet perso j’avais trouvé ça. Je ne suis pas allé au bout de ma lecture mais cela t’aidera surement à classifier les articles par catégories et créer les mots clefs dont tu aura surement besoin pour les recherches.

JulesMichael

Merci je vais aussi regarder, ça à l’air intéressant.

Chronologiquement, avant de classer les articles, il y a l’aspect WebScraping. Il y a effectivement des logiciels existants, mais je ne suis pas sûr qu’ils soient suffisants pour le besoin.

elegance

Quand je parles d’utiliser des logiciels, ce sont évidement des logiciels que j’aurai crées à moins bien sur que le logiciel qui fait exactement ce que je veux existe, mais tout comme toi j’en doutes.

En tout cas merci pour vos réponses. D’ailleurs, si des gens sont intéressés par ce projet et veulent participer, n’hésitez pas à me le dire je suis ouvert toute collaboration.

Merci pour le lien, je regarderai. Après je ne suis pas fan de cette mise en page où les "sous-articles" ont beaucoup moins d’importance visuelle que l’article principal. Dans l’idéal j’aimerai que tout les liens des articles soient présentées de manière équitable comme sur la capture d’écran de newsnow.co.uk que j’avais montré dans mon premier post. Après je me demande si les gens vont cliquer sur les "sous-articles" donc je me dis autant ne pas les afficher.

Le coté équitable peut être obtenu en mettant celui en avant de manière aléatoire. Car ce principe de regroupement est d’éviter au lecteur d’ouvrir 5 articles qui racontent la même chose. Il faut donc les regrouper. Mais rien ne t’empeche de ne pas faire de préférence a priori sur celui à mettre en avant

Connectez-vous pour pouvoir poster un message.
Connexion

Pas encore membre ?

Créez un compte en une minute pour profiter pleinement de toutes les fonctionnalités de Zeste de Savoir. Ici, tout est gratuit et sans publicité.
Créer un compte