Ecrans, un site de Libération.fr

Dixit

Je rejette le terme “piratage”. Ce sont des gens qui écoutent de la musique et la partagent avec d’autres personnes.

Steve Albini, pilier du rock indépendant américain depuis 1982

  • Home
  • Internet
  • Télévision
  • Cinéma
  • Dvd
  • Jeux
  • Téléphone
  • Forums
  • Rss

lundi 12 février 2007 12:28

  • internet

Babel Web

Comprendre un blog chinois, lire un site arabe, tchater en allemand... Internet fait rêver d’un monde sans barrière de langues et relance la recherche sur les systèmes de traduction automatique.

par Frédérique Roussel

tags : blog , linguistique , traduction

DR

» sur le même sujet

Trados choisies

Les versions anglaises de deux textes français (...)

Le mythe biblique

«Toute la terre avait une seule langue et les (...)

Le Geta, pionnier de l’aventure française

Créé en 1959, l’un des plus anciens laboratoires européens continue à défricher.

Au printemps 2006, le blog le plus populaire au monde est pour la première fois chinois, selon le Top 100 du plus puissant des moteurs de recherches du blogomonde, Technorati. Il est écrit par Xu Jing Lei, une jeune et belle actrice. Son succès est un événement symbolique sur la Toile. En détrônant le blog américain Boing Boing, alors au sommet, il confirme l’emprise des Chinois sur l’Internet : sur 66,6 millions de blogs, la Chine en compte à elle seule plus de 36 millions. Et il engendre une terrible frustration. Pour qui ne parle pas le mandarin, impossible de pénétrer la prose de la donzelle. Impossible également de lire les millions de pages, générées par les millions de locuteurs, qui circulent aujourd’hui en ligne. Dans le bouillon communicationnel de cet espace mondialisé où l’anglais perd du terrain – 35 % de taux d’occupation contre 75 % en 1998 –, la langue reste la dernière barrière. « Avec l’inflation de la production langagière due aux progrès des nouvelles technologies, dans un contexte où des langues diverses sont placées dans des situations de contiguïté, la traduction est amenée à avoir une place croissante », a affirmé Xavier North, délégué général à la langue française et aux langues de France, lors du salon Expolangues, fin janvier, à Paris. Resurgit alors, avec l’Internet, le rêve de la tour de Babel : comprendre tout ce que dit toute l’humanité. Et ce qu’écrit la charmante Xu Jing Lei. Depuis quelques années à peine, ce rêve commence enfin à prendre corps.

Dès que l’ordinateur a été conçu après la Seconde Guerre mondiale, on a pensé s’en servir pour produire des textes parfaitement traduits. L’intention était plutôt pacifique. « En 1946, Andrew Booth et Warren Weaver tenaient leurs premières conversations sur l’application des calculateurs électroniques à la traduction, raconte Jean Véronis, professeur de linguistique et informatique à Aix-en-Provence et président de l’Atala (Association pour le traitement automatique des langues). Au sortir d’une guerre meurtrière, ils y voyaient un espoir nouveau pour faciliter la communication entre les peuples. » Mais c’est finalement la tension géopolitique qui sera motrice. Les premiers systèmes de traduction automatique sont expérimentés en pleine guerre froide. Des deux côtés du rideau de fer, les services de renseignements s’agitent. Les Etats-Unis investissent massivement dans un décryptage du russe. Les Russes font de même avec l’anglais. Voilà comment, sous le signe de l’espionnage, est né Systran (acronyme de System Translation). Utilisé par l’US Air Force, puis par la Nasa dans le projet Apollo-Soyouz, Systran – devenu français il y a dix ans – est aujourd’hui l’un des leaders mondiaux du secteur.

A cette époque pionnière, on traduit mot à mot. La méthode va vite révéler ses limites. « Un Pied-Noir a mangé une pomme de terre » devient « a black foot has eaten an apple of earth ». La langue recèle une infinité d’ambiguïtés, comme nos sympathiques homographes. En français, « le » est soit article, soit pronom, et « savoir », soit un verbe, soit un nom. Ce genre d’écueils va rebuter. En 1960, le logicien Bar-Hillel décrète qu’une traduction automatique est impossible si on ne dispose pas d’une immense banque de données et si le locuteur n’a pas de connaissances extérieures au texte à traduire. En clair, il faudrait que l’ordinateur comprenne. Ce constat d’impuissance donne un coup d’arrêt aux recherches et le rapport Alpac (Automatic Language Processing Advisory Committee), publié en 1964, conduit le gouvernement américain à stopper les financements. Seuls s’entêtent le Geta à Grenoble (lire ci-dessous) et le projet canadien, Meteo, qui traduit avec succès depuis 1977 des bulletins météo de l’anglais vers le français.

Dans les années 70, on s’y remet. L’illusion d’arriver à une traduction directe d’une langue naturelle à une autre a fait long feu. On cherche plutôt à ôter le maximum d’ambiguïtés en prenant en compte le contexte du mot – sa fonction dans la phrase, voire dans le paragraphe. Les prototypes développés dans les labos, encore à base de règles linguistiques, y parviennent mais dans des domaines restreints, avec un vocabulaire réduit. Les besoins sont pourtant devenus énormes. La Communauté européenne, qui accueille de nouveaux entrants en son giron, porte le panache du multilinguisme. Au début des années 80, elle investit notamment dans Eurotra, un projet de recherche destiné à mettre au point un système de traduction entre les neuf langues officielles. « Il nous a été reproché d’aller trop dans le raffinement, explique Laurence Danlos, professeur de linguistique informatique à Paris 7 qui dirigeait la partie française. Cela a au moins permis de lancer une dynamique dans les pays où la traduction automatique n’existait pas comme le Portugal. »

Depuis le 1er janvier 2007, la Commission européenne compte 23 langues officielles. L’équation ne fait que se compliquer. Un enjeu politique qui oblige Bruxelles à posséder le plus grand service de traduction au monde avec quelque 1 750 linguistes et un budget prévisionnel de 302 millions d’euros en 2007. Chaque année, plus de 1,5 million de pages passent d’une langue à l’autre. Une version développée à partir de Systran[1] lui permet de faire du déchiffrage efficace, avant de passer le mistigri à des humains. « La traduction faite à la Commission comporte au moins 23 x 22 = 506 combinaisons linguistiques. La traduction automatique est loin d’offrir autant de combinaisons », souligne Karl-Johan Lönnroth, à la tête de la Direction générale de la traduction. D’autres outils sont utilisés comme Eurodicautom, une base de terminologie de 7 millions de termes, et Euramis, une mémoire de traduction de plus de 88 millions de phrases.

Une nouvelle approche a émergé depuis les années 90 : la traduction statistique, en particulier chez IBM. Cette technique, qui utilise des calculs de probabilité d’usage de mots et de phrases et repère dans une base de données les traductions précédentes de groupes de mots, s’avère bien plus rapide. Microsoft procède ainsi, pour alimenter sa base de connaissances, de 200 000 articles qui contient le mode d’emploi du baladeur Zune ou de la Xbox. « La traduction automatique par des méthodes statistiques nécessite une puissance de calcul et des capacités de stockage élevées. Il était quasiment impossible il y a cinq ou dix ans de créer un tel système », explique Chris Wendt, de l’équipe Traduction automatique de Microsoft à Redmond.

Aux côtés des logiciels vendus dans le commerce (Systran sort actuellement une version qui passe de 42 à 52 « paires » de langues, faisant dialoguer ainsi quinze langues), des traducteurs à destination du grand public se sont épanouis sur le Web. Depuis l’arrivée de Systran sur AltaVista en 1997, tous les grands portails offrent des services gratuits avec des résultats – approximatifs – en un millième de seconde. Trente millions de traductions en ligne sont ainsi effectuées par jour dans le monde, dont 2 millions en France. Un succès qui a poussé un ogre de l’Internet comme Google à créer un laboratoire de traduction automatique qui a déjà produit les « paires » anglais-russe, anglais-chinois, anglais-arabe. « Grâce aux méthodes statistiques qui enregistrent des traductions d’un grand nombre de corpus, explique-t-on chez Google, les chercheurs retrouvent l’espoir de concevoir de bien meilleurs systèmes. » Selon un récent rapport du Nist américain (National Institute of Standards and Technology), qui a testé les capacités des meilleurs logiciels à traduire de l’anglais vers le mandarin et l’arabe, l’algorithme de Google arrive leader devant les trente-neuf autres.

La politique continue de donner l’impulsion. Depuis 2001, les Etats-Unis se sont sérieusement mis à l’arabe. Systran lui-même travaille sur une quinzaine d’autres langues (farsi, ourdou, slovène, hongrois...) pour le renseignement américain. La CIA l’utilise pour détecter des signaux faibles d’Al-Qaeda dans les newsgroups et les blogs.

La traduction automatique demeure donc très imparfaite. « Les systèmes progressent lentement mais sûrement, estime Laurence Danlos. L’espoir réside dans les systèmes hybrides qui marient linguistique et méthodes probabilistes. » On a, d’ores et déjà, entamé la montagne. « La traduction automatique sert à déchiffrer l’information stratégique pour des sociétés qui font de la veille, pour le lycéen qui tombe sur un article en espagnol ou pour le retraité qui fait des recherches généalogiques », résume Pierre Bernasseau, directeur du marketing chez Systran. « En cinquante ans, on a décrypté le génomede l’homme mais pas encore son langage », conclut Jean Véronis. L’Internet représente plus que jamais une opportunité d’avancer, même si sans humain on ne traduira jamais Proust. Passons le dernier message de Xu Jing Lei à la moulinette du Web : « Le temps a été chaud, ressort est venu, j’ont attrapé le froid, marques un film que la poussière d’endroit vole vers le haut, continuel beaucoup de jours, seulement les repos journaliers 3, 4 heures. »

(1) Systran est en litige avec la Commission sur des questions de propriété intellectuelle.


Partager cet article

Partager Tweet


Twitter Ecrans Facebook Ecrans

Sur les mêmes thèmes:

blog - La disposition des poils inter-coussinets

linguistique - « Esthétiquement, et phonétiquement, le terme liseuse ne rend grâce à rien »

traduction - Tous ceux qui veulent changer les mimoclips

article précédent
Les internautes téléchargent (encore et toujours)
article suivant
Le Geta, pionnier de l’aventure française

  • Babel Web

    19 février 2007 12:06, par Assimil :) et cie
    Et apprendre une ou plusieurs langues étrangères... Ça ne me paraît pas être une mauvaise idée, non ? J’enfonce des portes ouvertes (quoique... quand je regarde autour de moi, je me demande), mais ça permet aussi de comprendre comment l’autre pense. À quoi bon avoir la traduction littérale grâce à Systran ou à tout autre système si le contexte dans lequel la parole a été produite n’est pas expliqué au lecteur ?
  • Babel Web

    16 février 2007 10:24, par krokodilo
    Il est piquant de voir le nombre d’articles consacrés à "l’espoir" que donne la traduction automatique, dont les lendemains qui chantent sont toujours annoncés pour bientôt... alors que tous les traducteurs, interprètes et linguistes restent sceptiques à ce sujet, et d’un autre côté le silence, voire le boycott systématique que les grands médias comme le vôtre appliquent à l’égard de la seule autre solution à la barrière des langues, l’apprentissage d’une langue auxiliaire construite, très largement moins difficile et donc accessible à tous en 10 fois moins de temps que l’anglais à niveau égal, comme l’espéranto, seule langue construite reconnue par l’Unesco comme une langue vivante. Cordialement

 

Loading

Outils

  • imprimer
  • écrire à Frédérique Roussel
  • Tweet
  • Partager

Actualit

  • Wikipédia au secours de la recherche ?
  • Nosdeputes.fr libère l’Assemblée sortante
  • En attendant Rossel, Hersant empire
  • Dans le secret des lieux
  • Parti pirate : « Nous avons beaucoup de propositions concrètes et qui ne coûtent rien »

Lib.fr

  • A Montréal, «la loi spéciale, on s'en câlisse»
  • A la mairie de Saint-Max, 24 heures de lutte contre les inondations
  • Un vol Paris-Charlotte dévié à cause d'une passagère française
  • Attentat contre Uribe déjoué à Buenos Aires
  • A la une de «Libé» : Égypte, le printemps perdu
publicité

Hum, bizarre...

img75
Dans le secret des lieux

L’un des gouvernements les plus zélés sur Google Earth est celui des Pays-Bas, qui a recouvert d’esthétiques polygones des centaines de sites stratégiques (palais royaux, dépôts de fuel, bases militaires...)


Chronophage

Spewer

Attention, jeu dégueu.


Vidéo box

img75
Meilleurs souvenirs du net

Marco Cadioli se livre à des dérives existentielles autour du globe avec Google Earth.


Vendredi, à poils !

img75
« Ce glandeur de phoque du Groenland n’a pas de boulot »


No comment

img75
Tu sais, Brad...

« J’aime venir de temps en temps ici et regarder les avions passer. »


Inutile donc inutile

img75
Carte mémoire

Mille cinq années de mouvements de frontières en Europe résumées en onze minutes. Abstrait et hypnotique.




accueil | internet | télévision | cinéma | DVD | jeux | téléphone
contacts | licence | mentions légales | données personnelles | charte d’édition
engine SPIP | powered by carburant
© Libération- un site de Libération Network - 2006 - 2008