Ecrans, un site de Libération.fr

Dixit

Connard de beurre demi-sel !

Ces poètes de cuistots dans « Top Chef »

  • Home
  • Internet
  • Télévision
  • Cinéma
  • Dvd
  • Jeux
  • Téléphone
  • Forums
  • Rss

mercredi 2 janvier 2013 11:17

  • médias

INA : L’info fouillée au corpus

par Isabelle Hanne

tag : INA

La base de données visuelles d’OTMedia contient environ 700 000 images. Photo INA

Marie-Luce Viaud fait des fouilles. Pas avec un pinceau, à genoux dans le sable, mais devant son ordinateur, dans un bureau de l’INA Expert, le département recherche de l’Institut national de l’audiovisuel, à Bry-sur-Marne (Val-de-Marne). La chercheuse s’est spécialisée dans la fouille de données. Soit « l’extraction d’un savoir à partir de grandes quantités de données, par des méthodes automatiques ou semi-automatiques », selon la définition de Wikipédia à laquelle elle nous renvoie.

Depuis octobre 2010, elle coordonne une quinzaine de chercheurs qui collaborent à un discret mais ambitieux projet : l’Observatoire transmédia (OTMedia), une plateforme pour analyser les flux médiatiques à l’aide de moteurs de recherche (1). Ils fonctionnent sur une vaste base de données, capturées de juillet 2011 à décembre 2012. « C’est un corpus très riche, se félicite Marie-Luce Viaud. Primaire socialiste, élections présidentielle et législatives, élections américaines, Jeux olympiques… »

La collecte se fait dans les contenus de nombreux médias français : retranscriptions des journaux et des émissions d’actu de douze chaînes de télé, de TF1 à France 24, et de neuf radios, de RTL à France Culture ; six quotidiens (le Monde, Libé, le Figaro…) ; les dépêches de l’AFP, par ailleurs partenaire du projet ; 1300 sites internet, et Twitter. Le dépôt légal web de l’INA est mis à disposition.

L’observatoire doit permettre de « mieux appréhender les enjeux et les mutations de la sphère médiatique », explique le site du projet. Avec un budget de 2 millions d’euros, financé pour moitié par l’Agence nationale de la recherche (ANR) et labellisé par Cap Digital (le pôle de compétitivité en Ile-de-France), il rassemble une foultitude d’acteurs. Côté sciences humaines, le laboratoire Communication, information, médias de Paris-III-ENS, et le Laboratoire techniques, territoires et sociétés de l’Ecole des Ponts et Chaussées. Côté scientifique, le Laboratoire informatique d’Avignon (LIA), à la pointe sur la transcription audio ; Syllabs, une start-up spécialisée dans la sémantique ; l’INA et l’Institut national de recherche en informatique et en automatique (Inria), pour les moteurs de recherche à grande échelle et la visualisation de données.

Dans le monde des médias, « tout change, il y a beaucoup de nouveaux supports, et une remise en cause des acteurs historiques : c’est une période un peu trouble pour la production de l’information, note Marie-Luce Viaud. On a besoin d’outils d’analyse. Avec une vision transmédia, on peut détecter les événements à la source ». A terme, OTMedia permettra, sur le corpus, de déterminer quel média (Twitter ? AFP ?) est le plus souvent à l’origine de l’info, et qui sont les suiveurs. De retracer la propagation d’un événement, à l’heure d’Internet. Qui a dégainé en premier sur l’affaire Merah ? Avec quels mots ? Quel média a le plus parlé de la guerre en Syrie ? Des élections législatives ? Avec cette question : la multiplication des supports est-elle un gage de pluralité de l’info ou mène-t-elle à son infinie redondance ?

Dans le bureau de la chercheuse, des hiéroglyphes et des flèches encombrent un tableau Velleda. Elle présente les outils fraîchement mis au point sur le grand écran de son Mac : « Là, c’est vraiment un prototype de test, il y a encore des biais, on les corrige au fur et à mesure. » Une première interface permet d’accéder au vertigineux corpus de textes (en février, le prototype contiendra 4 millions de documents). On peut taper un nom (« Merah »), un lieu (« Toulouse »), une date… Marie-Luce Viaud présente une requête sur la période allant de mi-mars à mi-mai 2012, en plein cœur de l’affaire Merah : « On peut analyser le vocabulaire associé à un événement. Dans cette tragédie, "antisémitisme" et "racisme" laissent place à "terrorisme" et "violence" dans les médias. On peut aussi vérifier que les pics de l’AFP, de la télé et de la radio correspondent au temps réel des faits, alors que la presse et le Web prolongent l’événement en le commentant. »

Un des aspects les plus aboutis du projet, c’est son moteur de fouille visuelle (environ 700 000 images). « C’est l’état de l’art en la matière ! Dix ans de recherches. » L’outil reconnaît l’image par des agencements de points et va chercher les schémas similaires dans sa base de données. Par exemple, quand on sélectionne une moulure sur une photo de l’Assemblée nationale, le moteur ressort un agrégat d’images de différents politiques dans l’Hémicycle, avec la même moulure en arrière-plan. « On peut comparer la visibilité d’une marque ou d’un parti politique, par exemple », note la chercheuse, qui montre les résultats des requêtes sur l’affiche de Nicolas Sarkozy (« la France forte ») : la fouille détecte aussi bien les originaux que les détournements satiriques. L’outil permet aussi de faire émerger l’image la plus utilisée par les médias du corpus sur une période donnée - pour octobre 2011, par exemple, c’est le portrait de Steve Jobs. « L’outil n’est pas du tout fini, il y a 15 000 trucs à faire ! » s’enthousiasme Marie-Luce Viaud.

L’INA mettra le prototype à disposition des chercheurs au Centre de consultation Paris-BNF de l’Inathèque de France (site François-Mitterrand) à la fin du projet, en octobre 2013. On pourra ainsi voir, parmi mille autres choses, que de juillet 2011 à avril 2012, sauf lors de la primaire socialiste, la courbe des occurrences de « Nicolas Sarkozy » dans les médias du corpus dépasse toujours, et de beaucoup, la courbe de « François Hollande ».

 

Paru dans Libération du 24 décembre 2012


Il y a 1 réaction à cet article.

Lire les réactions.
Réagir à cet article.

Partager cet article

Partager sur Facebook TweetPartager sur Google+

Twitter Ecrans Facebook Ecrans

Sur les mêmes thèmes:

INA - L’INA offre la gloire aux VHS à tonton

article précédent
Sur Amazon, le hasard met le paquet
article suivant
Instants télé : Cruel, brutal, barbare


 

Loading

Outils

  • imprimer
  • écrire à Isabelle Hanne
  • réactions (1)
  • Tweet
  • Partager sur Facebook
  • Partager sur Google+

Actualit

  • « Monsieur et Madame Zhang », retour perdant
  • Quand le créateur du gif est enfin récompensé
  • L’art de la table
  • Info « Libération » : France 2 supprime « Des mots de minuit »
  • Silence, c’est la bande annonce : Metro Last Light

Lib.fr

  • Frigide Barjot se sent menacée et hésite à aller manifester
  • Les supporteurs de foot craignent les «mesures répressives» des autorités
  • Bucoliques frénétiques
  • Les députés votent en faveur des cours en anglais à l'université
  • Les éloges funèbres promotionnels de Pascal Nègre agacent Twitter
publicité

Etonnant, non ?

img75
L’art de la table

Chaque jour du mois de mars, l’artiste Hong Yi a créé une œuvre d’art en respectant deux règles : 1) utiliser uniquement de la nourriture et 2) faire d’une assiette blanche la toile de fond.


Chronophage

Gods will be watching

Il s’agit de ne pas se planter : si on oublie d’alimenter le feu, on meurt. S’il n’y a plus de vaccins, on meurt. Si on tombe en rade de nourriture, on meurt.


En bref

img75
Hadopi : Aurélie Filippetti décrète la fin de la coupure

La ministre de la Culture, Aurélie Filippetti, a annoncé que la coupure d’accès à Internet, dernière des sanctions graduées en cas de piratage, serait supprimée par décret « extrêmement rapidement ».


Vendredi, à poils !

img75
Sushis et chats-shimis

Le Japon aime les chats ; le Japon aime les sushis. Et certains étranges personnages japonais aiment donc les chats-sushis.


Inutile donc inutile

img75
Sur le bout des onglets

Bon c’est sûr, il faut aimer l’accordéon.


Vidéo box

img75
Animation atomique

Sorti il y a quinze jours sur YouTube, « A boy and his atom » est le premier film animé de l’histoire avec... des atomes.




accueil | internet | télévision | cinéma | DVD | jeux | téléphone
contacts | licence | mentions légales | données personnelles | charte d’édition
engine SPIP | powered by carburant
© Libération- un site de Libération Network - 2006 - 2008