Le web sémantique

logique,web,algorithmique

a marqué ce sujet comme résolu.

J’ai été intéressé par Internet très tôt dans son implémentation. J’ai surtout appris par moi-même donc dans un milieu où les cours collaient possible à une bonne utilisation du HTML.

Des années après, j’ai eu quelques cours sur les technologies du web. Ce qui m’a le plus marqué était la priorite pour le référencement plutôt qu’un code bien structuré. Genre mettre des mots-clés dans les alt des images et j’en passe.

Je pense que depuis que les grandes marques se sont installés sur Internet dans le but de faire du profit et donc où la visibilité est le plus important, la sémantique est loin d’être important.

Je pense que c’est les moteurs de recherches qui dirigent la façon de faire les sites. L’usage des tableaux pour les designs est devenu moins bien référencé. Il en est de même pour les sites non adapté aux mobiles depuis un certain temps je crois. J’ai entendu dire que prochainement, il pourrait y avoir une évolution du référencement avec les sites non adaptés aux handicapés.

Par contre continuerai d’essayer de suivre les recommandations et de partager cette façon de faire avec ceux que je connais.

C’est toujours d’actualité, il existe des grandes bases de données web sémantiques, la plus connue étant probablement dbpedia et son point d’entré sparQL.

Beaucoup de travaux de recherches sont en cours sur ce sujet, mais il semble que ça à en effet un peu de mal à être mis en production. C’est probablement dû au fait que les bases de données relationnelles sont utilisées presque par défaut dans un site web, et que migrer une base relationnelle vers un un triple store nécessite beaucoup de temps et d’argent, pour avoir au final un résultat similaire à ce qu’on avait avant (en terme de fonctionnalités, la plupart des utilisateurs se fichent pas mal de comment les données du sites sont organisées).

Des années après, j’ai eu quelques cours sur les technologies du web. Ce qui m’a le plus marqué était la priorite pour le référencement plutôt qu’un code bien structuré. Genre mettre des mots-clés dans les alt des images et j’en passe.

Helmasaur

Tu confonds web sémantique et accessibilité ou HTML5. Difficile de savoir exactement de quoi tu parles, mais c’est hors sujet. ;)

Mais j’ai l’impression que peu de gens connaissent ou s’y intéressent, quelqu’un sait pourquoi ? l’idée est toujours d’actu ou ça a été abandonné ? Ça donne quoi ?

VanHala

Oui ça reste très actuel. Beaucoup de recherche dans le domaine et de plus en plus d’applications.

C’est le même combat que le libre. Les gens n’ont pas intérêt à perdre du trafic ou à le faire gratuitement.

Décentraliser l’information du site me semble une problématique de taille.

A-312

Je comprends pas ce dont tu parles. Le web sémantique ne signifie pas décentraliser l’information, ni perdre du trafic. Quand IMDb ou Amazon s’y mettent à fond, ou Microsoft Google et Yandex, à ton avis c’est pour perdre du fric et du trafic ?

J’ai rapidement parlé de web sémantique dans ce message, aussi : https://zestedesavoir.com/forums/sujet/6732/debuter-en-programmation-web/?page=2#p120893 , et plus en détails dans celui-ci : https://zestedesavoir.com/forums/sujet/6732/debuter-en-programmation-web/?page=2#p120922

C’est probablement dû au fait que les bases de données relationnelles sont utilisées presque par défaut dans un site web, et que migrer une base relationnelle vers un un triple store nécessite beaucoup de temps et d’argent, pour avoir au final un résultat similaire à ce qu’on avait avant (en terme de fonctionnalités, la plupart des utilisateurs se fichent pas mal de comment les données du sites sont organisées).

Je vois pas ça comme ça. Tu peux faire du web sémantique sans triple store. Il y a une différence entre produire du contenu sémantique et l’analyser. C’est même généralement pas les mêmes entités qui font les 2. Si t’as un blog de recettes de cuisine, t’as vachement intérêt à y mettre des données sémantiques sous un format ou un autre, et c’est pas wordpress qui va t’empêcher de faire ça alors qu’il repose sur MySQL, typiquement.

+1 -0

Des années après, j’ai eu quelques cours sur les technologies du web. Ce qui m’a le plus marqué était la priorite pour le référencement plutôt qu’un code bien structuré. Genre mettre des mots-clés dans les alt des images et j’en passe.

Helmasaur

Tu confonds web sémantique et accessibilité ou HTML5. Difficile de savoir exactement de quoi tu parles, mais c’est hors sujet. ;)

En principe, la valeur de alt est d’afficher une description de l’image. J’imagine que ça doit venir des connexions lentes par le passé. C’est mon idée en tout cas.

Par cet exemple, je voulais montrer que si juste ces petites choses n’intéressaient pas grand monde, je ne pense pas que ce Web 4.0 est une priorité.

En principe, la valeur de alt est d’afficher une description de l’image. J’imagine que ça doit venir des connexions lentes par le passé. C’est mon idée en tout cas.

Par cet exemple, je voulais montrer que si juste ces petites choses n’intéressaient pas grand monde, je ne pense pas que ce Web 4.0 est une priorité.

Helmasaur

Ce dont tu parles là n’a aucun rapport avec le web sémantique. L’attribut alt de la balise img n’a rien à voir avec le web sémantique. Je peux t’inviter à lire cette page wikipédia qui explique de quoi il s’agit : https://fr.wikipedia.org/wiki/Web_sémantique :)

L’attribut alt de la balise img n’a rien à voir avec la bande passante, c’est un attribut d’accessibilité. Tu peux apprendre de quoi il s’agit sur cette page wikipédia : https://fr.wikipedia.org/wiki/Accessibilité_du_web

+1 -0

C’est le même combat que le libre. Les gens n’ont pas intérêt à perdre du trafic ou à le faire gratuitement.

Décentraliser l’information du site me semble une problématique de taille.

A-312

Je comprends pas ce dont tu parles. Le web sémantique ne signifie pas décentraliser l’information, ni perdre du trafic. Quand IMDb ou Amazon s’y mettent à fond, ou Microsoft Google et Yandex, à ton avis c’est pour perdre du fric et du trafic ?

J’ai rapidement parlé de web sémantique dans ce message, aussi : https://zestedesavoir.com/forums/sujet/6732/debuter-en-programmation-web/?page=2#p120893 , et plus en détails dans celui-ci : https://zestedesavoir.com/forums/sujet/6732/debuter-en-programmation-web/?page=2#p120922

victor

En lisant la définition de wiki :

Selon le W3C, « le Web sémantique fournit un modèle qui permet aux données d’être partagées et réutilisées entre plusieurs applications, entreprises et groupes d’utilisateurs »[3]. L’expression a été inventée par Tim Berners-Lee[4] (inventeur du Web et directeur du W3C), qui supervise le développement des technologies communes du Web sémantique. Il le définit comme « une toile de données qui peuvent être traitées directement et indirectement par des machines pour aider leurs utilisateurs à créer de nouvelles connaissances ». Pour y parvenir, le Web sémantique met en œuvre le Web des données qui consiste à lier et structurer l’information sur Internet pour accéder simplement à la connaissance qu’elle contient déjà.

J’ai cru comprendre que c’était pour permettre d’exploiter les informations de façon détachées avec une autre application. Par exemple : Un site A qui exploiterait les informations d’un autre pour les centraliser. Un peu comme Google commence à le faire pour certaine recherche on se retrouve directement avec un bloc de citation et le résultat de la recherche.

Pour une boutique en ligne ça ne pose pas de problème (ça offre de la visibilité). Google est un géant. Mais pour les petits sites (blog, openclassroom…), ils ont intérêts à ne pas faciliter "l’absorption" par de gros site pour garder leur trafic rémunéré.

Pour une boutique en ligne ça ne pose pas de problème (ça offre de la visibilité). Google est un géant. Mais pour les petits sites (blog, openclassroom…), ils ont intérêts à ne pas faciliter "l’absorption" par de gros site pour garder leur trafic rémunéré.

A-312

Je crois que t’as pas bien compris. On agrège, centralise, etc les données sémantiques. Seulement les données sémantiques. Si j’écris sur mon blog une critique à propos d’un film et que j’y attribue une note de 4/5, est-ce que tu refuseras de cliquer sur le résultat google de mon blog parce que le résultat indique le titre du film, ma note, le réalisateur et l’année de sortie ?

Au contraire, j’aimerais que google sache tout ça, et sache que j’ai écrit une critique. Google n’a pas le droit de reproduire mon contenu car il m’appartient.

+1 -0

Oui ça reste très actuel. Beaucoup de recherche dans le domaine et de plus en plus d’applications.

Ah ? j’ai tord de dire que y a tout à faire, beaucoup de boulots, et peu de gens encore dans le domaine ? Ce serait une bonne voie dans laquelle s’engager ? Ma compréhension du sujet est encore limitée, mais j’adorerais en apprendre +, ça me parait hyper intéressant de lié la recherche d’info a la sémantique de ces mêmes infos.

+0 -0

Oui ça reste très actuel. Beaucoup de recherche dans le domaine et de plus en plus d’applications.

Ah ? j’ai tord de dire que y a tout à faire, beaucoup de boulots, et peu de gens encore dans le domaine ? Ce serait une bonne voie dans laquelle s’engager ?

A mon avis oui, en tout cas si ça t’intéresse je t’y encourage !

Ma compréhension du sujet est encore limitée, mais j’adorerais en apprendre +, ça me parait hyper intéressant de lié la recherche d’info a la sémantique de ces mêmes infos.

VanHala

Il y a effectivement de la recherche dans cette direction, oui, avec des applications importantes et intéressantes.

lié la recherche d’info a la sémantique de ces mêmes infos

Ça s’appelle l’entity linking, et c’est un problème pour lequel on est très loin d’avoir une solution qui marche suffisamment bien. C’est presque toujours lié au NLP, le traitement automatique du langage.

Prends Siri, l’assistant d’apple disponible sur l’iphone, ou l’assistant de Google. Tu lui dis "Qui est Jean-Claude Van Damme ?". Une fois ta voix retranscrite en texte, il doit déjà détecter que Jean-Claude Van Damme est une entité, pas 4 mots placés là comme ça. Grâce aux infos typiquement extraites de Wikipedia, grâce au balisage sémantique de Wikipedia et aux internautes qui ont rédigé sa page et entré ces infos, puis grâce au fait que Google a flanqué toutes ces données sémantiques dans une base de donnée adaptée, Google sait de qui tu parles : un acteur belge. Il te répond "Jean-Claude Van Damme est un acteur belge.". Ensuite tu dis "Quel âge a-t-il ?". Là, une fois ta voix retranscrite, il doit deviner que "il" réfère à l’acteur belge en question, celui que t’as mentionné une phrase auparavant. Et à nouveau il tape dans sa base de données sémantiques (une knowledge base / un knowledge graph) pour trouver l’âge du bonhomme.

Quand t’en es là, c’est pas plus difficile de répondre à la question "Donne-moi une liste de musiciens nés à Marseille entre 1950 et 1965 d’un père d’origine italienne et ayant exercé une fonction politique". Ce qui est quand même assez cool.

La difficulté de l’entity linking est pas évidente ici parce que Jean-Claude Van Damme n’est pas ambigü. Imagine que tu veuilles enrichir des articles de journaux avec des infos supplémentaires extraites d’une base sémantique. Le titre de l’article c’est "Matignon annonce l’envoi d’un cheval sur Mars". Facile de détecter que Matignon et Mars sont des entités, a priori. Mais Matignon est très ambigü. Laquelle de ces entités : https://fr.wikipedia.org/wiki/Matignon ? Pour un être humain c’est facile, "Matignon annonce" ça implique que le premier ministre s’exprime. Mais de façon automatique, algorithmique, comment tu lèves l’ambiguïté ?

Y’a un tas de problèmes et d’applications de ce type qui sont intéressantes.

+1 -0

De mon point de vue plutôt pragmatique, la contribution suivante est très pertinente :

C’est toujours d’actualité, il existe des grandes bases de données web sémantiques, la plus connue étant probablement dbpedia et son point d’entré sparQL.

Beaucoup de travaux de recherches sont en cours sur ce sujet, mais il semble que ça à en effet un peu de mal à être mis en production. C’est probablement dû au fait que les bases de données relationnelles sont utilisées presque par défaut dans un site web, et que migrer une base relationnelle vers un un triple store nécessite beaucoup de temps et d’argent, pour avoir au final un résultat similaire à ce qu’on avait avant (en terme de fonctionnalités, la plupart des utilisateurs se fichent pas mal de comment les données du sites sont organisées).

GaaH

Je t’invite à tester le premier lien.

En ce qui concerne le second lien, il y a ici même un bon contenu :
Introduction au langage SPARQL à partir d’exemples liés à Wikidata

+1 -0
Connectez-vous pour pouvoir poster un message.
Connexion

Pas encore membre ?

Créez un compte en une minute pour profiter pleinement de toutes les fonctionnalités de Zeste de Savoir. Ici, tout est gratuit et sans publicité.
Créer un compte