[Résolu] Quelle technologie pour parser du HTML ? • Forum • Zeste de Savoir

Ekron, jeudi 26 novembre 2015 à 18h50

Bonjour,

Je travaille sur un projet universitaire pour lequel j'aurais besoin d'envoyer automatiquement une requête POST à un site web, récupérer la page HTML générée et parser le résultat pour extraire quelques mots ou phrases.

Connaîtriez-vous un outil ou un framework qui soit adapté à ce type d'usage ?

Merci !

26/11/15 à 18h50

« Nous sommes faits de l’étoffe dont sont tissés les vents. »

+0 -0

nohar, jeudi 26 novembre 2015 à 18h59
Modifié

Salut.

C'est tout à fait dans les cordes de Python. Selon tes contraintes, soit tu peux te permettre d'utiliser des modules tiers :

requests pour la requête POST
lxml pour parser la réponse

Soit tu peux composer avec la bibliothèque standard (en faisant ta requête avec urllib), mais le parsing sera un peu plus laborieux sans lxml.

26/11/15 à 18h59
Modifié

I was a llama before it was cool

+4 -0

Nodraak, jeudi 26 novembre 2015 à 19h15
Modifié

Pour parser du HTML en python je partirais direct sur du BeautifulSoup.

Petit article de presentation (attention, le reste du site est un peu NSFW)

26/11/15 à 19h15
Modifié

https://nodraak.fr/

+1 -1

Ekron, jeudi 26 novembre 2015 à 19h51
Modifié

Je n'ai pas de contraintes particulières donc je vais regarder les modules que vous m'avez conseillés.

Merci !

P.S. - Si d'autres personnes ont des suggestions différentes, qu'elles n'hésitent pas, je suis ouvert à tout.

26/11/15 à 19h51
Modifié

« Nous sommes faits de l’étoffe dont sont tissés les vents. »

+0 -0

nohar, jeudi 26 novembre 2015 à 19h53

Pour parser du HTML en python je partirais direct sur du BeautifulSoup.

Petit article de presentation (attention, le reste du site est un peu NSFW)

Nodraak

BeautifulSoup n'est qu'une surcouche de lxml. À l'usage je la trouve bien plus laborieuse à utiliser (sans même parler des perfs qui ne nous intéressent pas ici). Du coup j'aurais tendance à la proscrire : elle figure dans mon top 10 des "fausses bonnes idées", avec path.py.

26/11/15 à 19h53

I was a llama before it was cool

+2 -0

Berdes, jeudi 26 novembre 2015 à 21h33

Autrement, si tu connais un peu le javascript, il y a moyen d'utiliser jquery directement dans node.js¹. Et jQuery, c'est probablement le meilleur framework à l'heure actuelle pour manipuler de l'html.

http://quaintous.com/2015/07/31/jqery-node-mystery/ ↩

26/11/15 à 21h33

+1 -0

Ekron, jeudi 26 novembre 2015 à 22h16

Ok, je vais regarder de ce côté aussi.

26/11/15 à 22h16

« Nous sommes faits de l’étoffe dont sont tissés les vents. »

+0 -0

informaticienzero, vendredi 27 novembre 2015 à 08h45

En .NET, il y a HtmlAgilityPack qui est bien. Il est gratuit et installable facilement dans Visual Studio avec Nuget. Après, pour un projet universitaire, est-ce que le .NET est accepté ?

27/11/15 à 08h45

Apprendre le C++ moderne

+1 -0

Javier, vendredi 27 novembre 2015 à 14h22
Modifié

Exemple en Groovy, récupérer tous les titres d'articles présents sur la page d'accueil :

@Grab(group='org.codehaus.groovy.modules.http-builder', module='http-builder', version='0.7.1')
import groovyx.net.http

def html= new HttpBuilder('http://zestedesavoir.com').get([:])

def articles = html."**".findAll { it.name() == 'ARTICLE' }
def titresArticles = articles.collect { it.A[0]?.@title }
println titresArticles

Y'a moyen de faire un "one-liner" mais bon, c'est déjà pas forcément évident à comprendre…

C'est typiquement le genre de trucs (rechercher récursivement dans un document XML) que les langages de script "modernes" fournissent des outils appropriés et généralement pas trop complexes à comprendre.

EDIT : la doc

27/11/15 à 14h22
Modifié

Happiness is a warm puppy

+1 -0

nohar, vendredi 27 novembre 2015 à 14h57

Pour le fun :

>>> import requests
>>> from lxml.etree import HTML
>>> page = requests.get("https://zestedesavoir.com")
>>> html = HTML(page.text)
>>> for title in html.xpath('//article/div[@class="content-info"]//h3'):
...     print(title.text.strip())
... 
D'Éden à Yggdrasil : l'arbre dans les mythes
Les arbres, sous toutes leurs formes
Cérémonie de la science improbable : présentation des IgNobels 2015
Les injections SQL
Vagrant, connexion SSH
Impression erronée
Appel d'une fonction depuis un autre fichier
Plusieurs ModelForm dans une page
Quelle technologie pour parser du HTML ?
Tablette DualBoot : Remettre à zéro

Après, évidemment, la version one-liner est imbitable :

1	[title.text.strip() for title in HTML(requests.get("https://zestedesavoir.com").text).xpath('//article/div[@class="content-info"]//h3')]

27/11/15 à 14h57

I was a llama before it was cool

+1 -0

GaaH, vendredi 27 novembre 2015 à 15h09

En Ruby, Nokogiri permet de parser du xml/html.

27/11/15 à 15h09

+1 -0

Javier, vendredi 27 novembre 2015 à 15h40
Modifié

Marrant comme les versions Groovy et Python se ressemblent

(en même temps les deux reposent sur des XPath, d'ailleurs on pourrait écrire la version XPath également, plutôt que GPath).

PS : GPath c'est le ."**". pour ceux qui se demanderaient.

27/11/15 à 15h40
Modifié

Happiness is a warm puppy

+1 -0

informaticienzero, vendredi 27 novembre 2015 à 15h41

Ah oui XPath. HtmlAgilityPack repose dessus également.

27/11/15 à 15h41

Apprendre le C++ moderne

+1 -0

anonyme, vendredi 27 novembre 2015 à 16h04
Modifié

Ekron, dis-moi, tu as déjà codé, si oui, tu connais quoi comme langage(s) ? Il est impératif de le savoir, si tu veux des réponses exploitables.

J'ai l'impression que tu vas te lancer dans l'apprentissage d'un langage, celui qu'on t'aura le mieux vendu, dans le but d'implémenter ton script. Si tu n'as jamais programmé, ça risque d'être long (mais pourquoi pas!).

27/11/15 à 16h04
Modifié

+2 -0

fred1599, samedi 28 novembre 2015 à 12h56

+1 pour xpath avec lxml, c'est extrêmement efficace, je n'utilise que lui pour du parsing HTML.

28/11/15 à 12h56

+1 -0

Ekron, lundi 30 novembre 2015 à 01h41

Wow, merci pour tous vos messages !

Alors, pour répondre globalement :

l'université ne donne pas de contrainte, en réalité, ce petit script est un partie d'un projet un peu plus gros, donc on fait comme on veut ;
j'ai déjà codé, et je pense me débrouiller pas trop mal en Java, C# et en web (PHP, Javascript…). J'ai fait un peu de Python aussi et dans la mesure où ce que je cherche à faire n'est pas très compliqué, je pense que je pourrais m'en sortir avec.

En tout cas, merci encore à tout le monde, je vais me pencher sur ces solutions pour voir laquelle m'est le plus accessible !

30/11/15 à 01h41

« Nous sommes faits de l’étoffe dont sont tissés les vents. »

+0 -0

juke, lundi 30 novembre 2015 à 17h01

weboob est un framework specialisé dans le scrapping : http://weboob.org/

30/11/15 à 17h01

+0 -0

Quelle technologie pour parser du HTML ?

Pas encore membre ?