Extraire les informations d'un article

L'auteur de ce sujet a trouvé une solution à son problème.
Auteur du sujet

Bonjour,
J'aurais souhaité savoir comment Telegram (par exemple) extrais les données de n'importe quel lien qu'on envoi ? Comment fait-il pour savoir où est le titre de l'article, où est le contenu de l'article, où est l'image de l'article, etc. ?
Voici une image d'exemple :

Exemple avec un article du Figaro dans Telegram

Merci de votre aide !

Mon projet : OpenPlane, un utilitaire en Java pour les pilotes, les vrais !

+0 -0
Staff

Cette réponse a aidé l'auteur du sujet

Salut,

C'est une page web, donc de l'HTML, donc ça se cache probablement dans la source. Par exemple l.23-26 :

1
2
3
4
<meta property="og:title" content="Les explosifs des attentats de Paris fabriqués à Bruxelles"/>
<meta property="og:image" content="http://i.f1g.fr/media/figaro/orig/2016/01/08/XVMc8486e5a-b624-11e5-a082-fca1fbadc47a.jpg"/>
<meta property="og:url" content="http://www.lefigaro.fr/international/2016/01/08/01003-20160108ARTFIG00345-les-explosifs-des-attentats-de-paris-fabriques-a-bruxelles.php"/>
<meta property="og:description" content="Des gilets et une empreinte de Salah Abdeslam ont été retrouvés."/>

Je parle de JavaScript et d'autres trucs sur mon blog : https://draft.li/blog

+0 -0
Auteur du sujet

Je pensais plus à des blogs connu et moins connu, mais j'ai pas trop d'exemple en tête pour aller vérifier…

Édité par Wizix

Mon projet : OpenPlane, un utilitaire en Java pour les pilotes, les vrais !

+0 -0
Staff

D'accord. Alors non, ils n'ont pas tous ces tags.

Sans exemple on peut pas trop t'aider. Ou alors tu ne poses pas les bonnes questions, du coup je vais t'aider autrement : pourquoi tu veux savoir comment Telegram fait ça ?

Je parle de JavaScript et d'autres trucs sur mon blog : https://draft.li/blog

+0 -0
Auteur du sujet

J'ai toutes les réponses que je souhaitais, ne t'inquiète pas !

Ce serait pour faire la même chose sur un site web (un peu LXML et de Python3 et le tour est joué !).
Merci à toi !

Mon projet : OpenPlane, un utilitaire en Java pour les pilotes, les vrais !

+0 -0
Staff

Ce serait pour faire la même chose sur un site web (un peu LXML et de Python3 et le tour est joué !).

Je pige pas, pourquoi tu l'as pas dit ? C'est quoi l'intérêt de poser une question du genre "Comment fait X pour faire Y" plutôt que demander "Comment faire Y (exemple X)" ? :)

Sinon, ce que tu veux faire s'appelle "web data extraction". Il existe plusieurs solutions SaaS :

Et certainement un bon nombre de solutions open source également.

Si tu veux programmer ça toi-même, je te recommande d'utiliser en priorité les og:. Et si ça échoue, regarde comment font les trucs du genre readability et compagnie.

Je parle de JavaScript et d'autres trucs sur mon blog : https://draft.li/blog

+0 -0
Vous devez être connecté pour pouvoir poster un message.
Connexion

Pas encore inscrit ?

Créez un compte en une minute pour profiter pleinement de toutes les fonctionnalités de Zeste de Savoir. Ici, tout est gratuit et sans publicité.
Créer un compte