Mots-clés : ingénierie de la connaissance, abstraction présentation-contenu, métadonnées, information sociale, human-based computation
Deux concepts sont complémentaires en matière de Web sémantique : on peut sémantifier le contenu a priori, en lui adjoignant des métadonnées avant même sa publication, ou bien a posteriori, en l’analysant de manière automatique et intelligente.
1. Sémantification du Web
Pendant longtemps les documents du Web mélangeaient la présentation (l’aspect du site) avec le contenu (les données elles-mêmes). Cela posait de nombreux problèmes qui ont conduit à une structuration des documents en contenu brut (XHTML puis XML) et en feuilles de style (CSS) séparées. La sémantification du Web est une abstraction supplémentaire qui vise à adjoindre aux données elles-mêmes (du texte, par exemple) des métadonnées permettant à des machines d’en comprendre le sens logique, indépendamment du langage utilisé. Le Web sémantique permet donc aux différentes applications Web de communiquer entre elles, et permet aussi de concevoir des moteurs de recherche plus performants.
a. Recherches académiques sur la structure du langage
Le modèle de base du Web sémantique est le RDF qui permet de formaliser les relations logiques et les définitions d’éléments de contenu. Il permet par exemple, par le biais de métadonnées, de rendre clair le sens d’un terme polysémique (« souris ») ou la relation d’une entité à une autre ; on parle d’ontologies. Il existe des formats spécialisés par usage : FOAF (Friend of a Friend) pour les relations entre personnes, etc. Ces formats sont souvent standardisés par le W3C (World Wide Web Consortium), organisme de normalisation des technologies du Web. En France, des projets comme Webcontent (CEA, INRIA, EADS, Exalead...) participent à la recherche sur l’architecture des services sémantiques.
b. Enjeux pour les moteurs de recherche
Comme l’a affirmé récemment Marissa Mayer, VP Search de Google, la recherche sur Internet est loin d’être un problème résolu. En effet il faut une certaine expérience pour pouvoir chercher efficacement une information précise sur le Web, et l’intelligence humaine est toujours primordiale.
Les moteurs de recherche pourront tirer des enseignements extrêmement précieux de ces nouvelles informations sémantiques, pour améliorer leurs résultats. Ils pourront aussi inférer le sens de phrases écrites en langage naturel. Cela est utile pour analyser le contenu des pages Web, mais aussi pour analyser les requêtes des utilisateurs humains. Exalead propose déjà une ébauche d’outil sémantique puisque l’utilisateur peut raffiner sa recherche en précisant le sens de ses mots-clés. De même, Pages Jaunes interprète les termes de recherche de l’utilisateur pour lui fournir les résultats les plus pertinents (« j’ai faim »). De nombreuses PME françaises se sont lancées dans le développement sur des outils d’analyse sémantiques et de moteur de recherche. On peut citer à titre d’exemple Pertimm , Temis qui sont des entreprises actuellement en pleine croissance.
Cependant, pour que ces métadonnées soient valorisées, elles doivent être utilisées à travers tout Internet. Avant cela, il est donc nécessaire que les Systèmes de Gestion de Contenu (Content Management System ou CMS en anglais) qui sont les briques de base d’Internet (moteurs de blog, de wiki, etc.) intègrent ces concepts . Des solutions comme Triplify existent déjà, mais à en juger par le temps qu’il aura fallu pour voir une proportion raisonnable du Web utiliser les standards de séparation présentation-contenu, cela pourrait être assez long. Dans la perspective de cette sémantification du web, des projets se construisent pour créer des contenus ayant d’ores et déjà des métadonnées.
2. Catégorisation de l’information
a. Traitement de signal
En attendant, de nouvelles techniques de catégorisation de l’information apparaissent, comme celles basées sur le traitement de contenu multimédia : images, son, vidéo. Google utilise d’ores et déjà de telles techniques pour indexer les vidéos Youtube à l’aide de reconnaissance vocale des mots présents sur les bandes-son . Cela demande des algorithmes de traitement de signal efficaces, mais surtout, capables de s’adapter à la taille du Web : la « scalability », ou « capacité de passage à l’échelle », est clé.
Dans le cas des images et de la vidéo, les technologies sont beaucoup moins matures, mais font l’objet de nombreux programmes de recherche. En France, le programme Quaero, mais aussi le projet de R&D Infom@gic (Cap Digital), soutenu par la DGE, investiguent les domaines de l’extraction et de la fusion de données dans les contenus multimédias.
b. Intelligence humaine
On assiste également à l’émergence de solutions de sémantification basées sur l’intelligence humaine, comme Google Image Labeler, conçu comme un jeu collaboratif entre deux humains permettant d’annoter les images du Web. Le concepteur de ce produit, Luis Von Ahn, avait créé le Captcha , permettant de déjouer les robots sur Internet, et plus récemment, reCaptcha, qui en plus permet de déchiffrer des mots non-identifiés rencontrés lors de la numérisation de livres anciens.
Ces techniques appartiennent au domaine plus large du « Human-based computation », ou « informatique assistée par les humains », qui renverse donc l’ordre communément établi. Dans ce domaine, Amazon propose même une plateforme payante de travail humain, appelée « Mechanical Turk », en référence à un automate joueur d’échecs du XVIIIème siècle qui cachait en fait un joueur humain, qui permet à des entreprises et des chercheurs de faire réaliser des petites taches souvent ludiques (Human Intelligence Tasks ou HITs) à des humains. |