Ecrans, un site de Libération.fr

Dixit

Je rejette le terme “piratage”. Ce sont des gens qui écoutent de la musique et la partagent avec d’autres personnes.

Steve Albini, pilier du rock indépendant américain depuis 1982

  • Home
  • Internet
  • Télévision
  • Cinéma
  • Dvd
  • Jeux
  • Téléphone
  • Forums
  • Rss

mercredi 21 mai 2008 10:01

  • internet

Zoom : l’esthétique des trigrammes

par Sébastien Delahaye

tags : graphisme , linguistique , Google

DR

Quand Google a rendu public à l’été 2006 un gigantesque corpus de plus de 1 000 milliards de termes (en anglais), il a fait un joli cadeau aux linguistes. Ce corpus de textes variés, issus du web, était utilisé par Google pour mettre en place ses logiciels de correction orthographique et d’analyse de pages web. L’ensemble tient sur environ 100 Go, mais ouvre de nombreuses possibilités d’analyse linguistique informatique. Mais on peut aussi faire de jolies choses avec de la linguistique.

Chris Harrison, chercheur au Human-Computer Interaction Institute (Pittsburgh), déjà connu pour ses outils de visualisation du net ou pour sa transformation de la Bible en réseau social, a profité du corpus fourni par Google pour lancer deux nouveaux projets de visualisation.

Le premier se base sur les trigrammes (des ensembles de trois termes) débutant par un pronom personnel anglais. Ce qui lui permet de comparer les trigrammes débutant par « I » et « you » (je/tu), ou ceux débutant par « he » et « she » (lui/elle). Il analyse ensuite, toujours de manière graphique, les principales cooccurrences suivant un pronom personnel. Autrement dit, les trigrammes les plus fréquents. Si la méthode d’analyse reste très basique, le résultat graphique est lui très intéressant, d’autant qu’il est très lisible.

Le deuxième projet, pas encore complètement terminé, analyse uniquement des bigrammes. Chris Harrison a choisi des couples de termes clefs antagonistes (war/peace, love/hate, design/art, etc.) et cherché les mots qui revenaient le plus souvent avec. Il en a tiré deux exemples de visualisations, basées sur la proximité. Les deux termes clefs sont placés de chaque côté de l’image, et tous les autres mots sont au milieu. Quand une occurrence est proche d’un terme clef, c’est qu’il apparaît dans le corpus plus souvent à côté de ce mot que de l’autre. Le résultat, là encore très graphique, est impressionnant sur un corpus de cette taille. On regrettera tout de même que les graphiques soient cependant un peu gâchés par le fait que Chris Harrison n’ait pas nettoyé son corpus : de nombreux mots grammaticaux (« and », « or », « to », « on », « of », « from »), plus présents que les noms et adjectifs de par leur rôle, mais inutiles ici, apparaissent logiquement beaucoup plus souvent que la plupart des autres termes.


Il y a 0 réaction à cet article.

Lire les réactions.
Réagir à cet article.

Partager cet article

Partager Tweet


Twitter Ecrans Facebook Ecrans

Sur les mêmes thèmes:

graphisme - Zoom : les palettes de la planète

linguistique - « Esthétiquement, et phonétiquement, le terme liseuse ne rend grâce à rien »

Google - Google-Motorola : les brevets qui valaient 12 milliards

article précédent
Au fil des jeux : Splinter Cell, Mad World, et les autres...
article suivant
Cannes : Antonietta, attachée de presse surbookée


 

Loading

Outils

  • imprimer
  • écrire à Sébastien Delahaye
  • réactions (0)
  • Tweet
  • Partager

Actualit

  • Ça déchire
  • « Entre le 15 mai et le 15 décembre 2011, aucun film français n’a été téléchargé sur le Web »
  • Législatives : les boulettes du vote par Internet
  • Lekiosque.fr se presse à l’étranger
  • Pierre Lescure, des intérêts en question

Lib.fr

  • SeaFrance : le ministre des Transports met en cause le précédent gouvernement
  • Poutine, en tournée à l'étranger, passera par Paris
  • «La tuberculose est un marqueur de précarité sociale»
  • Peillon joue la transparence avec les rapports de l'éducation
  • En direct - Le Pen et Mélenchon au marché
publicité

C’est joli, on aime

img75
Ça déchire

Une feuille de papier, une photocopieuse, des milliards de possibilités.


Chronophage

Wake up the Box 4

On ne se contente plus d’assembler les pièces de bois à notre disposition pour construire une machine à réveiller la boîte. Il faut désormais les dessiner soi-même.


Inutile donc inutile

img75
Un coup de Moog

Jouer du Daft Punk avec le doodle Moog de Google ? Yes he can.


Ecouter / Voir

img75
Un clip dans ses petits papiers

« Østersøen » fera moins consensus sur son style musical que ses charmants décors en papier et carton.


Hum, bizarre...

img75
Dans le secret des lieux

L’un des gouvernements les plus zélés sur Google Earth est celui des Pays-Bas, qui a recouvert d’esthétiques polygones des centaines de sites stratégiques (palais royaux, dépôts de fuel, bases militaires...)


Vidéo box

img75
Meilleurs souvenirs du net

Marco Cadioli se livre à des dérives existentielles autour du globe avec Google Earth.




accueil | internet | télévision | cinéma | DVD | jeux | téléphone
contacts | licence | mentions légales | données personnelles | charte d’édition
engine SPIP | powered by carburant
© Libération- un site de Libération Network - 2006 - 2008