Assainissement markdown avant l’interprétation

a marqué ce sujet comme résolu.

1e49ba0eba, samedi 01 juin 2024 à 20h24
Modifié

Bonjour,

Une petit question sur l’utilisation de python-markdown avec du contenu non fiable. La méthode qui semble préconisée est d’utiliser bleach. D’une part ce dernier est déprécié (mais ça à la limite, il semble qu’il y a des des alternatives et que update liés à la sécurité sont maintenus pour le moment).

Mais surtout il est plutôt fait pour assainir a posteriori, en laissant passer uniquement les tags non-dangereux générés par markdown. Si j’essaie d’assainir avant l’interprétation par python markdown, les « & » sont remplacés par des « & », pareil pour les « > », etc. Et l’interprétation ne se fait pas.

Mais sans assainissement a priori, l’utilisateur peut utiliser directement toutes les balises html qui sont sur la liste blanche sans passer par la syntaxe markdown. Ce que je ne veux pas non plus.

Là je ne vois que deux solutions : modifier toutes les regex de python markdown pour fonctionner avec du code assaini. Ou tout assainir, et dés-assainir au cas par cas pour les chaînes de caractères susceptibles d’être interprétées par markdown. Les deux solutions me paraissent bourrines et cradingues.

Est-ce qu’il existe des méthodes plus propres ? J’imagine que je ne suis pas le premier à avoir le problème. D’ailleurs sur <a href="https://zestedesavoir.com/">zds</a>, il semble que vous l’ayez résolu. Quelle est la bonne façon de faire ?

01/06/24 à 20h24
Modifié

+0 -0

viki53, lundi 03 juin 2024 à 21h42

Hello,

Si tu regardes le code source de zmarkdown tu verras qu’il utilise un parseur externe avec des plugins, notamment remark-escape-escaped qui échappe quelques caractères HTML de base avant de parser le contenu MarkDown.

Ainsi tu t’assures de ne pas avoir de HTML (les balises étant échappées) en entrée du parseur MarkDown, qui peut alors s’occuper de générer du HTML considéré "safe".

03/06/24 à 21h42

Mes tutos et billets / Blog d’un dev(ops) Web

+1 -0

1e49ba0eba, dimanche 16 juin 2024 à 14h38

Merci.

Bon, c’est déjà plus ou moins ce que je faisais. J’espérai plutôt un truc qui échappe les balises html, mais pas le markdown. Bon, dans tous les cas, ma solution actuelle fonctionne, donc ça fera le taf.

16/06/24 à 14h38

+0 -0

viki53, dimanche 16 juin 2024 à 23h04

Pourquoi vouloir échapper le MarkDown ? Ce n’est pas un format interprété par le navigateur, seul le HTML l’est (et peut donc poser des problèmes de sécurité).

16/06/24 à 23h04

Mes tutos et billets / Blog d’un dev(ops) Web

+0 -0

1e49ba0eba, jeudi 20 juin 2024 à 15h22

C’est le contraire. Je veux échapper le html, mais pas le markdown.

Par exemple :

Si j’utilise une citation

> Je veux utiliser cette
> syntaxe

<blockquote>
Mais je ne veux surtout pas que ce block soit interprété comme une citation
</blockquote>

Si j’assainis après la compilation du md, je suis bien obligé d’autoriser la balise <blockquote>. Si j’assainis avant, je me retrouve avec > à la place des > du premier block, ce qui empêche l’interprétation du markdown par le parseur.

Pour le moment j’ai résolut le problème en forkant Python-markdown et en replaçant > par > dans la regex du parseur. Ça fonctionne, mais je ne trouve pas ça très propre.

20/06/24 à 15h22

+0 -0

Connectez-vous pour pouvoir poster un message.
Connexion

Pas encore membre ?

Créez un compte en une minute pour profiter pleinement de toutes les fonctionnalités de Zeste de Savoir. Ici, tout est gratuit et sans publicité.
Créer un compte

Assainissement markdown *avant* l’interprétation

Pas encore membre ?

Assainissement markdown avant l’interprétation