Bonjour,
Je fais du scrapping avec BeautifulSoup
mais des fois les données que je récupère ont des caractères spéciaux.
Par exemple, en inspectant le html de certaines pages ont peut voir des zones de textes entourés de " "
ce qui correspond à mettre des espaces spéciaux avant et après le texte, ou encore on peut voir des &nsbp;
etc…
J’aimerai beaucoup remplacer ces caractères spéciaux par les caractères usuels du clavier. Par exemple si je vois des espaces de type &nsbp;
je le remplace par l’espace classique (celui qui se produit lorsqu’on appuie sur la touche espace du clavier), ou si je vois le caractères UTF-8 : U+22EF
alors je le remplace par les trois petits points : ...
etc…
Le problème c’est que je ne sais pas comment faire, puisque c’est impossible de lister tous les caractères spéciaux UTF-8… J’imagine qu’il faut utiliser la librairie re
de python mais je ne vois pas quelle regex utiliser pour résoudre ce problème. J’avais pensé à des choses du type re.sub("^\s+|\s+$", " ", mon_string)
mais évidemment ça ne marche pas.
Déjà je pense que trouver la solution pour tous les caractères espaces bizarres serait déjà un bon début mais je ne vois pas comment faire…
Merci beaucoup !