Menu
Libération

Wikipédia va ménager les robots

par Camille Gévaudan
publié le 21 novembre 2012 à 11h38
(mis à jour le 21 novembre 2012 à 11h50)

Wikipédia est le septième site internet le plus visité en France par les internautes humains. Mais l'encyclopédie en ligne est-elle aussi populaire chez les robots ? Drôle de question… Qu'on ne s'était jamais vraiment posée, à vrai dire, avant d'entendre parler de SémanticPédia .

Présentée hier matin, cette nouvelle plateforme est le fruit d' une convention signée entre Wikimédia France -- l'association qui soutient et promeut Wikipédia dans l'Hexagone --, l'Inria (Institut national de recherche en informatique et en automatique) et le ministère de la Culture.

Son principe est aussi simple à comprendre que son nom paraît nébuleux : la Toile, telle qu’on la connaît aujourd’hui, est tissée par des êtres humains. Elle est pensée par eux et pour eux, cherchant sans cesse à simplifier la vie de l’internaute et lui garantir le meilleur confort de navigation possible. Ainsi les articles Wikipédia, bien présentés, bien rédigés et joliment illustrés, sont un vrai bonheur pour leurs lecteurs…

Mais en l'état, ils ne sont pas loin d'être incompréhensibles pour tous les logiciels et codes informatiques qui voudraient eux aussi accéder à son contenu, car les programmes ne savent pas faire le tri dans une masse d'informations pour en extraire la substantifique moelle. SémanticPédia veut leur donner un coup de main : ce sera «un écosystème de données culturelles» , qui ira piocher ses informations à la source (dans Wikipédia, dans des bibliothèques en ligne, des corpus de textes, des archives vidéo ou tout ce que l'on veut encore) pour les rendre accessibles publiquement et librement à qui en a besoin.

Le site HDA Labs , par exemple, réutilise les données culturelles extraites de Wikipédia pour les rendre accessible via une recherche multicritères : pays, époque, discipline artistique...

Les applications possibles sont infinies et «d'une richesse et d'une innovation réellement imprévisibles» , se réjouit Fabien Gandon, chercheur à l'Inria. Il imagine déjà «un GPS culturel» capable de nous guider vers les monuments historiques les plus proches de nous après avoir extrait de leur fiche Wikipédia leur nom, leur date de construction, leurs coordonnées géographiques, leur photo, etc.

Rodolphe Bailly présentait, pour sa part, l'immense collection de photographies d'instruments et d' enregistrements de concerts que possède la Cité de la musique, où il est responsable du service numérisation. Toute cette richesse culturelle ne demande qu'à être «désenclavée» et libérée des sites qui la retiennent prisonnière, selon la délicieuse métaphore de Xavier North, délégué général à la langue française au ministère de la Culture. Une fois structurés et «interconnectés» avec d'autres ressources, ces trésors peuvent enfin profiter au plus grand nombre.

Signature de la convention par Michel Cosnard (Inria), Aurélie Filippetti (ministère de la Culture) et Rémi Mathis (Wikimédia France), lundi matin. Photo TheSuperMat, CC BY SA

«On entre dans le Web 3.0, qui permet aux ordinateurs de comprendre les informations par leur sens» , expliquait hier la ministre de la Culture, Aurélie Filippetti. Après avoir permis aux internautes lambda de contribuer à l'enrichissement d'Internet par moult systèmes collaboratifs, blogs, commentaires, wikis et réseaux sociaux (on appelle ça le «Web 2.0»), il est enfin venu le temps de faire un peu d'ordre dans cet immense fatras en ligne. La mise en place d'un « Web sémantique » est un idéal aussi vieux que le World Wide Web lui-même -- c'est d'ailleurs son inventeur, Tim Berners-Lee, qui a lancé l'expression. Mais la mission commence seulement à être prise au sérieux et à bras-le-corps.

À peine sorti de l'œuf, Semanticpedia.org ne s'appuie pour l'instant que sur un seul «jeu de données» : celui de DBpedia , l'outil qui extrait les données des fiches Wikipédia et qui s'est vu offrir une version française pour l'occasion.

À gauche, l'«infobox» de la fiche Wikipédia sur l'étoile Bételgeuse, qui résume ses principales informations. À droite, les données extraites par DBpedia pour une réutilisation dans des logiciels et sites Internet.

Mais plusieurs axes de développement sont sur les rails, en commençant à l'horizon 2013 avec une sémantisation du Wiktionnaire , le dico made in Wikimédia qui compte plus de 2,2 millions d'entrées en français. À terme, tout ce qui «met en valeur la langue et la culture française» y sera le bienvenu.

Paru dans Libération du 20 novembre 2012

Lire les réactions à cet article.

Pour aller plus loin :

Dans la même rubrique