Comment indexer le contenu d'un tutoriel ?

Montrez moi vos index

a marqué ce sujet comme résolu.

Salut,

Aujourd'hui, quand on index les tutoriels, on indexe quatre types de modèles avec les informations suivante:

  • Les tutoriels
    • Indexes
    • L'introduction et la conclusion au format HTML
    • Les catégories des tutoriels (titre et description)
    • Description et titre du tutoriel
    • On peut recherche en ciblant les champs (parfois sauvegardé)
    • titre et description
    • sha_public
  • Les parties

    • Indexes
    • L'introduction et la conclusion au format HTML
    • Description et titre du tutoriel (à supprimer)
    • La date de publication (à supprimer)
    • Le titre de la partie
    • On peut recherche en ciblant les champs (parfois sauvegardé)
    • En double: Le nom du tutoriel, le titre de la partie
  • Les chapitres

    • Indexes
    • L'introduction et la conclusion au format HTML
    • Le titre du chapitre
    • La date de publication du tutoriel (à supprimer)
    • La date de la publication de la partie (à supprimer)
    • On peut recherche en ciblant les champs (parfois sauvegardé)
    • En double: le titre du chapitre
    • Le nom du tutoriel
    • Le nom de la partie
  • Les extraits

    • Indexes
    • L'extrait en html
    • Le titre du chapitre
    • La description du chapitre
    • La date de publication du chapitre
    • Le titre de la partie
    • Le titre de la partie du tutoriel (ça provoque un bug à l'indexation)
    • La description de la partie du tutoriel (ça provoque un bug à l'indexation)
    • La date de publication du chapitre (ça provoque un bug à l'indexation)
    • Le titre de l'extrait (? ça provoque un bug à l'indexation)
    • On peut recherche en ciblant les champs (parfois sauvegardé)
    • Le nom du fichier Markdown ( \o/ )
    • En double: le titre (? ça provoque un bug à l'indexation) et Le nom du chapitre

Au début, j'étais partis pour vous lister quelques champs mais j'ai trouvé des énormités, alors je le partage avec vous.

Ma question était comment on indexe le contenu du tutoriel ? Le contenu est stocké sois sous forme html, soit sous forme markdown dans la base de donnée. On peut indexer les deux. Personnellement, j'avais envie de récupérer le html lors de l'indexation, récupérer uniquement le texte, mettre dans des champs à parts les différents titre et les mots mis en gras. Même si ça prend que les millisecondes de plus, que pensez vous de cette solution ?

+0 -0

Est-ce vraiment cohérent de travailler sur le vieux modèle si ne juillet on balance la zep12?

artragis

Honnêtement, j'avais créé le topic pour parler de ça:

Ma question était comment on indexe le contenu du tutoriel ? Le contenu est stocké sois sous forme html, soit sous forme markdown dans la base de donnée.

On peut indexer les deux. Personnellement, j'avais envie de récupérer le html lors de l'indexation, récupérer uniquement le texte, mettre dans des champs à parts les différents titre et les mots mis en gras.

Même si ça prend quelques millisecondes de plus, que pensez vous de cette solution ?

Qui concerne aussi la zep-12.

Le reste, c'est pour vous informer de l'état de la recherche aujourd'hui. Un prétexte quoi ! Peut-être que je j'était pas assez clair sur ce point.

Après la question est si on indexe du HTML, il va falloir le traiter, c'est à dire enlever toutes les balises (Je pense que Solr le fait par-défaut, à voir avec la configuration. Mais comme on a rien configuré …). Au besoin, à la main, extraire tous les mots en gras et les titres pour les mettre dans des champs à part.

Pourquoi ? Si on enlève pas les balises, Solr va analyser le contenu et va compter le nombre occurrence des mots pour connaitre les mots important (Y'a surement des algos spéciaux). Si on vire pas les balises, il va croire que les mots important sont les balises <p> car les plus présente dans le document. Il ne tiendra pas non plus en compte que les titres doivent avoir une importance plus élevé.

Je fais un tour rapide par ici ;)

De manière générale, le markdown n'est plus disponible dans la version publiée par la ZEP-12 (c'est encore le cas actuellement, mais je n'ai absolument aucune idée de à quoi ça sert), donc pour faire simple, il "faudrait" se reposer sur le HTML. Bien entendu, "rien" n'empêche de se baser sur le markdown, en particulier si on choisi d'indexer à la publication.

Il y a aussi un "gros" fichier markdown généré à chaque publication (pour générer le PDF and so all), ce qui est bien pour les perfs', mais plus complexe si on veut s'amuser à découper par chapitre.

Connectez-vous pour pouvoir poster un message.
Connexion

Pas encore membre ?

Créez un compte en une minute pour profiter pleinement de toutes les fonctionnalités de Zeste de Savoir. Ici, tout est gratuit et sans publicité.
Créer un compte