Logo mariane Ministère de l'Economie, de l'industrie et de l'emploi
Logo telecom.gouv.fr
Recherche


Soutiens et financements
. Programmes nationaux
. Programmes communautaires
. Initiatives Technologiques Conjointes (ou "JTI")
. Programme Eurêka
. AAL
. Fonds francophone des inforoutes


Organisation du secteur
. Appels à concurrence
. Textes réglementaires
. Corégulation
. Dossiers sectoriels
. Normalisation
. Dispositifs fiscaux et soutien à l’innovation
. Europe et international
. Les manifestations


Entreprises et économie numérique
. Pôles de compétitivité TIC
. Tableaux de bords, guides et outils
. Dématérialisation des marchés publics
. Certificats référencés PRIS v1
. Certificats qualifiés
. Sécurité


Datathèque
. Guide PMI-diag
. La lettre de la DGCIS
. Audiovisuel
. Rapports et études
. Veille et mesure
. Archives


Acteurs
. Nos partenaires
. Qui sommes-nous ?
. Comment nous trouver

Accueil > Organisation du secteur > Dossiers sectoriels > Web > Web sémantique > Technologies du Web sémantique

Technologies du Web sémantique

Mots-clés : ingénierie de la connaissance, abstraction présentation-contenu, métadonnées, information sociale, human-based computation

Deux concepts sont complémentaires en matière de Web sémantique : on peut sémantifier le contenu a priori, en lui adjoignant des métadonnées avant même sa publication, ou bien a posteriori, en l’analysant de manière automatique et intelligente.

1. Sémantification du Web

Pendant longtemps les documents du Web mélangeaient la présentation (l’aspect du site) avec le contenu (les données elles-mêmes). Cela posait de nombreux problèmes qui ont conduit à une structuration des documents en contenu brut (XHTML puis XML) et en feuilles de style (CSS) séparées. La sémantification du Web est une abstraction supplémentaire qui vise à adjoindre aux données elles-mêmes (du texte, par exemple) des métadonnées permettant à des machines d’en comprendre le sens logique, indépendamment du langage utilisé. Le Web sémantique permet donc aux différentes applications Web de communiquer entre elles, et permet aussi de concevoir des moteurs de recherche plus performants.

a. Recherches académiques sur la structure du langage

Le modèle de base du Web sémantique est le RDF qui permet de formaliser les relations logiques et les définitions d’éléments de contenu. Il permet par exemple, par le biais de métadonnées, de rendre clair le sens d’un terme polysémique (« souris ») ou la relation d’une entité à une autre ; on parle d’ontologies. Il existe des formats spécialisés par usage : FOAF (Friend of a Friend) pour les relations entre personnes, etc. Ces formats sont souvent standardisés par le W3C (World Wide Web Consortium), organisme de normalisation des technologies du Web. En France, des projets comme Webcontent (CEA, INRIA, EADS, Exalead...) participent à la recherche sur l’architecture des services sémantiques.

b. Enjeux pour les moteurs de recherche

Comme l’a affirmé récemment Marissa Mayer, VP Search de Google, la recherche sur Internet est loin d’être un problème résolu. En effet il faut une certaine expérience pour pouvoir chercher efficacement une information précise sur le Web, et l’intelligence humaine est toujours primordiale.

Les moteurs de recherche pourront tirer des enseignements extrêmement précieux de ces nouvelles informations sémantiques, pour améliorer leurs résultats. Ils pourront aussi inférer le sens de phrases écrites en langage naturel. Cela est utile pour analyser le contenu des pages Web, mais aussi pour analyser les requêtes des utilisateurs humains. Exalead propose déjà une ébauche d’outil sémantique puisque l’utilisateur peut raffiner sa recherche en précisant le sens de ses mots-clés. De même, Pages Jaunes interprète les termes de recherche de l’utilisateur pour lui fournir les résultats les plus pertinents (« j’ai faim »). De nombreuses PME françaises se sont lancées dans le développement sur des outils d’analyse sémantiques et de moteur de recherche. On peut citer à titre d’exemple Pertimm , Temis qui sont des entreprises actuellement en pleine croissance.

Cependant, pour que ces métadonnées soient valorisées, elles doivent être utilisées à travers tout Internet. Avant cela, il est donc nécessaire que les Systèmes de Gestion de Contenu (Content Management System ou CMS en anglais) qui sont les briques de base d’Internet (moteurs de blog, de wiki, etc.) intègrent ces concepts . Des solutions comme Triplify existent déjà, mais à en juger par le temps qu’il aura fallu pour voir une proportion raisonnable du Web utiliser les standards de séparation présentation-contenu, cela pourrait être assez long. Dans la perspective de cette sémantification du web, des projets se construisent pour créer des contenus ayant d’ores et déjà des métadonnées.

2. Catégorisation de l’information

a. Traitement de signal

En attendant, de nouvelles techniques de catégorisation de l’information apparaissent, comme celles basées sur le traitement de contenu multimédia : images, son, vidéo. Google utilise d’ores et déjà de telles techniques pour indexer les vidéos Youtube à l’aide de reconnaissance vocale des mots présents sur les bandes-son . Cela demande des algorithmes de traitement de signal efficaces, mais surtout, capables de s’adapter à la taille du Web : la « scalability », ou « capacité de passage à l’échelle », est clé.

Dans le cas des images et de la vidéo, les technologies sont beaucoup moins matures, mais font l’objet de nombreux programmes de recherche. En France, le programme Quaero, mais aussi le projet de R&D Infom@gic (Cap Digital), soutenu par la DGE, investiguent les domaines de l’extraction et de la fusion de données dans les contenus multimédias.

b. Intelligence humaine

On assiste également à l’émergence de solutions de sémantification basées sur l’intelligence humaine, comme Google Image Labeler, conçu comme un jeu collaboratif entre deux humains permettant d’annoter les images du Web. Le concepteur de ce produit, Luis Von Ahn, avait créé le Captcha , permettant de déjouer les robots sur Internet, et plus récemment, reCaptcha, qui en plus permet de déchiffrer des mots non-identifiés rencontrés lors de la numérisation de livres anciens.

Ces techniques appartiennent au domaine plus large du « Human-based computation », ou « informatique assistée par les humains », qui renverse donc l’ordre communément établi. Dans ce domaine, Amazon propose même une plateforme payante de travail humain, appelée « Mechanical Turk », en référence à un automate joueur d’échecs du XVIIIème siècle qui cachait en fait un joueur humain, qui permet à des entreprises et des chercheurs de faire réaliser des petites taches souvent ludiques (Human Intelligence Tasks ou HITs) à des humains.

 




Appels à projets

La neutralité de l’Internet : modalités techniques et enjeux économiques

Appel à projets ITEA2

Appel à projets CATRENE 2010

 
Accès à nos services

Soumettre un événement

Rechercher un partenariat



Accès réservés
Achpub
TIC & e-Santé
Comité PIIC
GTN-TIC
PCRDT
Comité IIE
29 octobre 2008   [ Dernière mise à jour : 29 octobre 2008 ]
 
© Ministère de l'Économie, de l'industrie et de l'emploi - 2008


Ecrire au webmestre       Plan du site       Liens Utiles       Aide et mentions légales
Logo Agora   Logo W3C   Logo RSS        Logo Service Public   Logo Premier Ministre