Comment indexer le contenu d'un tutoriel ?

anonyme, mercredi 10 juin 2015 à 23h00
Modifié

Salut,

Aujourd'hui, quand on index les tutoriels, on indexe quatre types de modèles avec les informations suivante:

Les tutoriels
- Indexes
- L'introduction et la conclusion au format HTML
- Les catégories des tutoriels (titre et description)
- Description et titre du tutoriel
- On peut recherche en ciblant les champs (parfois sauvegardé)
- titre et description
- sha_public
Les parties
- Indexes
- L'introduction et la conclusion au format HTML
- Description et titre du tutoriel (à supprimer)
- La date de publication (à supprimer)
- Le titre de la partie
- On peut recherche en ciblant les champs (parfois sauvegardé)
- En double: Le nom du tutoriel, le titre de la partie
Les chapitres
- Indexes
- L'introduction et la conclusion au format HTML
- Le titre du chapitre
- La date de publication du tutoriel (à supprimer)
- La date de la publication de la partie (à supprimer)
- On peut recherche en ciblant les champs (parfois sauvegardé)
- En double: le titre du chapitre
- Le nom du tutoriel
- Le nom de la partie
Les extraits
- Indexes
- L'extrait en html
- Le titre du chapitre
- La description du chapitre
- La date de publication du chapitre
- Le titre de la partie
- Le titre de la partie du tutoriel (ça provoque un bug à l'indexation)
- La description de la partie du tutoriel (ça provoque un bug à l'indexation)
- La date de publication du chapitre (ça provoque un bug à l'indexation)
- Le titre de l'extrait (? ça provoque un bug à l'indexation)
- On peut recherche en ciblant les champs (parfois sauvegardé)
- Le nom du fichier Markdown ( \o/ )
- En double: le titre (? ça provoque un bug à l'indexation) et Le nom du chapitre

Au début, j'étais partis pour vous lister quelques champs mais j'ai trouvé des énormités, alors je le partage avec vous.

Ma question était comment on indexe le contenu du tutoriel ? Le contenu est stocké sois sous forme html, soit sous forme markdown dans la base de donnée. On peut indexer les deux. Personnellement, j'avais envie de récupérer le html lors de l'indexation, récupérer uniquement le texte, mettre dans des champs à parts les différents titre et les mots mis en gras. Même si ça prend que les millisecondes de plus, que pensez vous de cette solution ?

10/06/15 à 23h00
Modifié

+0 -0

artragis, jeudi 11 juin 2015 à 07h29

Est-ce vraiment cohérent de travailler sur le vieux modèle si ne juillet on balance la zep12?

11/06/15 à 07h29

+1 -0

anonyme, jeudi 11 juin 2015 à 11h55

Est-ce vraiment cohérent de travailler sur le vieux modèle si ne juillet on balance la zep12?

artragis

Honnêtement, j'avais créé le topic pour parler de ça:

Ma question était comment on indexe le contenu du tutoriel ? Le contenu est stocké sois sous forme html, soit sous forme markdown dans la base de donnée.

On peut indexer les deux. Personnellement, j'avais envie de récupérer le html lors de l'indexation, récupérer uniquement le texte, mettre dans des champs à parts les différents titre et les mots mis en gras.

Même si ça prend quelques millisecondes de plus, que pensez vous de cette solution ?

Qui concerne aussi la zep-12.

Le reste, c'est pour vous informer de l'état de la recherche aujourd'hui. Un prétexte quoi ! Peut-être que je j'était pas assez clair sur ce point.

11/06/15 à 11h55

+0 -0

artragis, jeudi 11 juin 2015 à 12h05

Ok, c'est plus clair Puisque ce qui est présenté aux gens c'est le html, autant indexer ce dernier .

11/06/15 à 12h05

+0 -0

anonyme, jeudi 11 juin 2015 à 12h25

Après la question est si on indexe du HTML, il va falloir le traiter, c'est à dire enlever toutes les balises (Je pense que Solr le fait par-défaut, à voir avec la configuration. Mais comme on a rien configuré …). Au besoin, à la main, extraire tous les mots en gras et les titres pour les mettre dans des champs à part.

Pourquoi ? Si on enlève pas les balises, Solr va analyser le contenu et va compter le nombre occurrence des mots pour connaitre les mots important (Y'a surement des algos spéciaux). Si on vire pas les balises, il va croire que les mots important sont les balises <p> car les plus présente dans le document. Il ne tiendra pas non plus en compte que les titres doivent avoir une importance plus élevé.

11/06/15 à 12h25

+0 -0

pierre_24, jeudi 11 juin 2015 à 14h35

Je fais un tour rapide par ici

De manière générale, le markdown n'est plus disponible dans la version publiée par la ZEP-12 (c'est encore le cas actuellement, mais je n'ai absolument aucune idée de à quoi ça sert), donc pour faire simple, il "faudrait" se reposer sur le HTML. Bien entendu, "rien" n'empêche de se baser sur le markdown, en particulier si on choisi d'indexer à la publication.

Il y a aussi un "gros" fichier markdown généré à chaque publication (pour générer le PDF and so all), ce qui est bien pour les perfs', mais plus complexe si on veut s'amuser à découper par chapitre.

11/06/15 à 14h35

#JeSuisToujoursArius • Docteur, mais en chimie ⚗️ • dev' quand il peut.

+0 -0

Montrez moi vos index

Pas encore membre ?