Zoom: l'esthétique des trigrammes

par Sébastien Delahaye
publié le 21 mai 2008 à 10h01

Quand Google a rendu public à l'été 2006 un gigantesque corpus de plus de 1000 milliards de termes (en anglais), il a fait un joli cadeau aux linguistes. Ce corpus de textes variés, issus du web, était utilisé par Google pour mettre en place ses logiciels de correction orthographique et d'analyse de pages web. L'ensemble tient sur environ 100 Go, mais ouvre de nombreuses possibilités d'analyse linguistique informatique. Mais on peut aussi faire de jolies choses avec de la linguistique.

Chris Harrison, chercheur au Human-Computer Interaction Institute (Pittsburgh), déjà connu pour ses outils de visualisation du net ou pour sa transformation de la Bible en réseau social , a profité du corpus fourni par Google pour lancer deux nouveaux projets de visualisation.

Le premier se base sur les trigrammes (des ensembles de trois termes) débutant par un pronom personnel anglais. Ce qui lui permet de comparer les trigrammes débutant par «I» et «you» (je/tu), ou ceux débutant par «he» et «she» (lui/elle). Il analyse ensuite, toujours de manière graphique, les principales cooccurrences suivant un pronom personnel. Autrement dit, les trigrammes les plus fréquents. Si la méthode d'analyse reste très basique, le résultat graphique est lui très intéressant, d'autant qu'il est très lisible.

Le deuxième projet, pas encore complètement terminé, analyse uniquement des bigrammes . Chris Harrison a choisi des couples de termes clefs antagonistes ( war / peace , love / hate , design / art , etc.) et cherché les mots qui revenaient le plus souvent avec. Il en a tiré deux exemples de visualisations, basées sur la proximité. Les deux termes clefs sont placés de chaque côté de l'image, et tous les autres mots sont au milieu. Quand une occurrence est proche d'un terme clef, c'est qu'il apparaît dans le corpus plus souvent à côté de ce mot que de l'autre. Le résultat, là encore très graphique, est impressionnant sur un corpus de cette taille. On regrettera tout de même que les graphiques soient cependant un peu gâchés par le fait que Chris Harrison n'ait pas nettoyé son corpus: de nombreux mots grammaticaux ( «and» , «or» , «to» , «on» , «of» , «from» ), plus présents que les noms et adjectifs de par leur rôle, mais inutiles ici, apparaissent logiquement beaucoup plus souvent que la plupart des autres termes.

Lire les réactions à cet article.

Pour aller plus loin :

Dans la même rubrique

Les plus lus