Bing corrige et copie sur Google

par Camille Gévaudan
publié le 2 février 2011 à 18h42
(mis à jour le 17 novembre 2011 à 11h19)

Pas facile, pour un anglophone, d'écrire certains termes scientifiques comme «Tarsorrhaphy». Il y a ces deux «r», assez inhabituels en anglais, et ce drôle de «h» qui le suit immédiatement... sans même parler de la première voyelle qu'on a grandes chances de prendre pour un «o» quand un locuteur un peu rapide l'avale à moitié. Bref : beaucoup épelleraient ce mot «torsoraphy» dans une dictée scolaire. Mais pas Google, véritable crack en orthographe. Alors son voisin de table Microsoft aurait le regard baladeur et loucherait un peu sur la copie du binoclard pour trouver l'inspiration. Ce fayot de premier de la classe le dénoncerait alors en public, et le cancre mourrait de honte sous les mauvais ricanements de la cour de récré.

C'est exactement de cette façon que Google a découvert chez son concurrent une fâcheuse tendance à copier purement et simplement ses résultats de recherche. Et si Microsoft a vaguement essayé de défendre sa vision d'une «recherche de qualité» , ils n'ont même pas cherché à nier tant les preuves sont accablantes : après des mois de soupçons et d'enquête, Google vient de démontrer sur son blog officiel que le moteur de recherche made in Microsoft, Bing, est tombé dans plusieurs des pièges spécialement dressés à son attention.

Danny Sullivan, blogueur spécialiste des moteurs de recherche, raconte l'histoire sur SearchEngineLand : «Les gens de Google m'ont dit qu'ils commençaient à tiquer sur l'extraordinaire propension de Bing à suggérer exactement les mêmes sites que Google pour des requêtes mal orthographiées.» Et de toute évidence, ce n'était pas parce que Bing avait développé un algorithme aussi puissant que celui de Google. Prenez une recherche avec le mot «torsoraphy», qui contient donc trois fautes.

Ne trouvant aucune page web pertinente contenant «torsoraphy», Google suppose assez intelligemment qu'on a voulu dire «Tarsorrhaphy» et modifie sa liste de résultats en conséquence, pour éviter à l'internaute l'effort de corriger lui-même son erreur.

De son côté, Bing sait aussi corriger les fautes sur les mots les plus courants, comme on peut le vérifier facilement . Mais si on lui demande «torsoraphy», le moteur ne détecte pas l'orthographe erronée et ne propose pas de correction. Pourtant, il place en tête des résultats la page Wikipédia dont le titre est bien orthographié. Exactement comme Google. Bizarre, non ?

«Google est fier de dire qu'il a le meilleur système de correction orthographique de tous les moteurs de recherche , rappelle Dan Sullivan. Ils prétendent même pouvoir corriger des requêtes qui n'ont jamais été soumises auparavant. Les ingénieurs font une veille très minutieuse pour s'assurer qu'ils restent compétitifs sur les mots peu usités. Alors quand Bing s'en sort aussi bien qu'eux sur des mots rares, c'est comme un gros drapeau rouge qui s'agite sur leur écran...»

Pour confirmer leurs soupçons et prouver par Cherche + Trouve que Bing est un sale copieur, les ingénieurs en question ont donc mis au point un plan méthodique et diabolique à base de requêtes piégées.

«Pour la première fois de son histoire, Google a confectionné un bout de code qui lui permet de booster manuellement -- et temporairement -- une page en particulier dans ses résultats de recherche» , explique SearchEngineLand. De cette manière, ils ont forcé l'apparition de certaines pages en réponse à des requêtes qui n'auraient dû avoir aucun résultat. Les pages «n'avaient aucune chance de remonter naturellement» dans les résultats de recherche, car elles n'avaient tout simplement rien à voir. «Donc si elles apparaissaient également chez Bing après que Google les avait mises en place, cela signifierait que Bing a mordu à l'hameçon et pompé les résultats de Google.»

En décembre 2010, bingo ! Entre 7 et 9 pièges (selon la date du test) sur les 100 mis en place ont fonctionné comme l'imaginait Google :

Sans nier que leurs résultats provenaient directement de chez Google, le vice-président de Bing a expliqué que le moteur de Mountain View n'était qu'un seul des «1000 signaux différents» analysés par Bing pour classer les pages web. Et encore, la récupération est indirecte. Elle se fait par l'intermédiaire de la barre d'outils Bing et de la fonction Sites suggérés sur le navigateur Internet Explorer 8, préinstallé sur tous les ordinateurs récents tournant sous Windows. Ces deux fonctionnalités sont conçues pour enregistrer «votre historique de navigation» , «les adresses web visitées» et «les termes de la recherche que vous avez faite pour y arriver» . Les mouchards transmettent ensuite à Microsoft des informations sur les recherches Google effectuées par les internautes. Et Bing les réutilise, parmi d'autres «signaux» , pour «améliorer l'expérience» sur son moteur de recherche. Ou en d'autres termes : le rendre plus complet et plus pertinent.

Les ingénieurs de Google qui ont mené l'expérience ont utilisé des ordinateurs portables Windows, équipés d'Internet Explorer et de la barre d'outils Bing. Ils ont utilisé Google pour taper leurs requêtes piégées, et cliqué sur le faux résultat affiché par Google. Quinze jours plus tard, le faux résultat apparaissait aussi sur Bing.

Si ce processus d'aspiration est quasiment invisible en temps normal, il prend une grande importance dans les requêtes plus inhabituelles, pour lesquelles Bing n'arrive pas à trouver beaucoup de résultats pertinents. Le moteur peine à dénicher des réponses par son propre algorithme, et le «signal Google» est d'autant plus amplifié pour compenser ce manque.

Cette découverte est bien sûr catastrophique pour la réputation de Bing... d'autant que Google n'a pris aucune pincette pour résumer l'affaire. «Le moteur Bing de Microsoft utilise les résultats de Google -- et le nie» , annonce en grosses lettres le titre de leur billet. Et histoire d'enfoncer le clou : «nous encourageons tous les internautes voulant les résultats de recherches les plus pertinents et les plus authentiques à venir directement sur Google. Et à ceux qui demandent comment nous allons conclure cette affaire, la réponse est simple : nous voulons que cette pratique cesse.» On a rarement lu conclusion aussi agressive sur leur blog officiel.

Lire les réactions à cet article.

Pour aller plus loin :

Dans la même rubrique

Les plus lus