Extraire les informations d'un article

L'auteur de ce sujet a trouvé une solution à son problème.
Auteur du sujet

Bonjour,
J'aurais souhaité savoir comment Telegram (par exemple) extrais les données de n'importe quel lien qu'on envoi ? Comment fait-il pour savoir où est le titre de l'article, où est le contenu de l'article, où est l'image de l'article, etc. ?
Voici une image d'exemple :

Exemple avec un article du Figaro dans Telegram

Merci de votre aide !

+0 -0

Cette réponse a aidé l'auteur du sujet

Salut,

C'est une page web, donc de l'HTML, donc ça se cache probablement dans la source. Par exemple l.23-26 :

1
2
3
4
<meta property="og:title" content="Les explosifs des attentats de Paris fabriqués à Bruxelles"/>
<meta property="og:image" content="http://i.f1g.fr/media/figaro/orig/2016/01/08/XVMc8486e5a-b624-11e5-a082-fca1fbadc47a.jpg"/>
<meta property="og:url" content="http://www.lefigaro.fr/international/2016/01/08/01003-20160108ARTFIG00345-les-explosifs-des-attentats-de-paris-fabriques-a-bruxelles.php"/>
<meta property="og:description" content="Des gilets et une empreinte de Salah Abdeslam ont été retrouvés."/>

Je parle de JavaScript et d’autres trucs sur mon blog : https://draft.li/blog

+0 -0
Auteur du sujet

J'ai toutes les réponses que je souhaitais, ne t'inquiète pas !

Ce serait pour faire la même chose sur un site web (un peu LXML et de Python3 et le tour est joué !).
Merci à toi !

+0 -0

Ce serait pour faire la même chose sur un site web (un peu LXML et de Python3 et le tour est joué !).

Je pige pas, pourquoi tu l'as pas dit ? C'est quoi l'intérêt de poser une question du genre "Comment fait X pour faire Y" plutôt que demander "Comment faire Y (exemple X)" ? :)

Sinon, ce que tu veux faire s'appelle "web data extraction". Il existe plusieurs solutions SaaS :

Et certainement un bon nombre de solutions open source également.

Si tu veux programmer ça toi-même, je te recommande d'utiliser en priorité les og:. Et si ça échoue, regarde comment font les trucs du genre readability et compagnie.

Je parle de JavaScript et d’autres trucs sur mon blog : https://draft.li/blog

+0 -0
Vous devez être connecté pour pouvoir poster un message.
Connexion

Pas encore inscrit ?

Créez un compte en une minute pour profiter pleinement de toutes les fonctionnalités de Zeste de Savoir. Ici, tout est gratuit et sans publicité.
Créer un compte