La Toile retrouve la mémoire

La BNF et l’INA archivent en permanence les flux de 2 millions de sites français. Une mission titanesque issue de la loi qui impose un dépôt légal des publications numériques.
par Thibault Henneton
publié le 6 décembre 2011 à 19h10

«Sur Internet, une information et une rumeur se valent» , déclare Ignacio Ramonet dans un entretien accordé à Libération.fr . Par ces mots, celui qui est alors directeur du Monde diplomatique commente la fameuse affaire de sexe et de politique de Bill Clinton et de Monica Lewinsky qui ont fait des choses «très inappropriées» dans le Bureau ovale de la Maison Blanche. Nous sommes en 1999, au tout début de l'explosion du Web. L'histoire Monica court sur la Toile, un phénomène que le site de Libération salue comme «l'événement fondateur d'un nouveau média» . Mais qui, aujourd'hui, se souvient de cette analyse prophétique ? Personne, sinon la base de données des serveurs du sous-sol de la Bibliothèque nationale de France (BNF), à Paris.

Ici sont sauvegardées, depuis deux ans, les pages web de tous les noms de domaines précédés de «www» et s'achevant en «.fr», soit près de deux millions de sites à ce jour. Non pas seulement une fois, mais deux, par sécurité, afin de complaire à la loi Dadvsi (Droits d'auteur et droits voisins dans la société de l'information). Votée en 2006, elle a étendu le champ du dépôt légal aux publications numériques, versant le Web au code du patrimoine national (1). La Toile se retrouve donc enregistrée et conservée au même titre que la première Bible imprimée de Gutenberg, un livre de coloriages pour enfants, les estampes d'Anish Kapoor, 320000 fascicules de périodiques par an, du Monde au Journal du Gers , en passant par les gratuits, les cinquante-trois éditions de Ouest-France , les comics et les petites annonces...

Tous les services du dépôt légal sont touchés par cette nouvelle activité d'archivage. En salle de tri des périodiques, Arnaud Avril veille ainsi, entre deux colis bourrés de journaux à classer, sur le robot qui photographie la page d'accueil de 76 sites de presse. Collectée quotidiennement, cette sélection de sites se veut représentative d' «un air du temps, explique Gildas Illien, responsable du dépôt légal numérique. Celui du Français qui, en se levant le matin, relève les nouvelles du jour sur son ordinateur ou son téléphone» .

Une obligation créée par François Ier

Sélection ? Le dépôt légal est pourtant censé recueillir sans discrimination tout document diffusé, produit ou édité sur le territoire national. L’entreprise, commencée en 1537 sur ordonnance royale de François Ier, a su intégrer les nouveaux médias (cinéma, documents audiovisuels). Jusqu’à ce que le passage au numérique bouleverse le paysage du dépot légal.

Les nouveaux livres sont toujours convoyés par chariots entiers dans les étages de la tour des Temps, l'une des quatre de la BNF (avec les Nombres, les Lettres et les Lois), où siège le dépôt légal. Mais l'ouvrage papier, ce support physique, stable, versé à la bibliographie nationale après description de ses métadonnées (auteur, éditeur, thématiques, etc.) cohabite désormais avec l'immatériel. Place aux flux, aux cohortes de formats et de codes informatiques, flash, plugins et javascript -- tout un environnement complexe, fuyant et en perpétuelle évolution, qu'il faut enregistrer. «Tonneau des Danaïdes» , «Sisyphe» : ces expressions reviennent sans cesse dans la bouche de ceux qui, à la BNF, sont chargés de cette mission inédite. Mais «il faut imaginer Sisyphe heureux» , assure Christine Genin citant Albert Camus.

Spécialiste de la littérature française contemporaine, elle a un pied dans les deux mondes -- papier et numérique --, comme 79 de ses collègues de la Direction des collections associés au dépôt légal du Web de la BNF. Ces bibliothécaires trient les sites qui seront aspirés lors de «collectes ciblées» , plus systématiques et donc plus complètes que celle, dite «large» , menée une fois par an. Au total, 20000 sites jugés d'intérêt général sont ainsi l'objet d'une attention privilégiée et d'un recueil exhaustif. Ainsi, Zazieweb.fr vaste communauté de e-lecteurs regorgeant de ressources sur la littérature contemporaine, actif durant douze ans, a été intégralement archivé avant sa fermeture en 2009. Un exemple parmi d'autres de l'intérêt du dépôt légal du numérique. Encore a-t-il fallu, pour mener cette mission sans précédent, surmonter desproblèmes techniques inédits.

«On ne pourra jamais conserver que des portions de cet artefact vivant qu'est le Web» , prévient le prédécesseur de Gildas Illien, Julien Masanès, qui a mené les premières expérimentations d'enregistrement du numérique à la BNF et qui dirige à présent la fondation Internet Memory, une structure privée engagée dans le même travail d'archivage. Il s'explique : l'URL, cette adresse que l'on tape dans la barre de son navigateur, donne accès à une infinité de pages web imbriquées les unes dans les autres. Pour les enregistrer, les ingénieurs ont inventé des «simulateurs de clics» dits «crawlers». Sept d'entre eux sont à l'œuvre dans la glaciale salle des machines de la BNF, des cubes de 50 cm sur 50 tout au plus. Sortes de robots moissonneurs semblables à ceux des moteurs de recherche, ils naviguent dans les méandres piégeux de la Toile pour indexer les sites souhaités, en évitant tant bien que mal le «bruit» : les publicités, les calendriers, les statistiques, et autres pages web générées dynamiquement, ad nauseam. Et ce, tout en respectant certaines règles de bienséance, la principale étant de ne pas sursolliciter les serveurs visités, sous peine d'être perçus comme des attaquants, façon Anonymous. Bilan de leur moisson : à ce jour, 13 milliards de fichiers indexés et entreposés dans des alignements de baies deserveurs sécurisés.

Mais le travail ne s’arrête pas là. Pour un site donné, il ne faut pas seulement archiver une collection de pages, mais aussi la façon dont on circule entre ces pages. On doit «être capable de restituer non seulement du flux, mais surtout des modes de publication», explique Jérôme Thièvre, ingénieur dans la section du dépôt légal du Web à l’Institut national de l’audiovisuel, à Bry-sur-Marne (Val-de-Marne). Il revient en effet à ce département de l’INA, dirigé par Claude Mussou, une mission spéciale : archiver les sites produits par le monde audiovisuel. Jérôme Thièvre montre l’écran noir où défilent à toute vitesse des lignes en caractères verts, témoins de la collecte en cours des 8000 sites indexés, dont ceux de Radio France, de France Télévisions, de nombreuses web-TV, ou encore des web-docus, voire des blogs de journalistes télé ou radio... 8000 sites, c’est beaucoup, mais tout de même moins que les 2 millions que doit capter la BNF. Du coup, la collecte de l’INA est plus complète. Certaines pages d’accueil sont même moissonnées toutes les deux heures par ces crawlers qui, comme dans les films des studios Pixar, ont des noms.

A l'INA, Crocket sillonne le «Web profond» , ces pages qui se cachent derrière des menus déroulant et qui n'apparaissent qu'au survol d'une souris (ainsi les programmes télé sur la page d'accueil de France2.fr). Et Webcollecte se charge du reste. A la BNF, c'est Heritrix qui fait le travail : un logiciel développé en open source par l'organisation Internet Archive. Vingt-quatre heures sur vingt-quatre, Crocket, Webcollecte, Heritrix ramassent donc des millions de pages qui sont ensuite explorables grâce à un logiciel permettant, à partir d'une URL, de remonter le temps de sites disparus ou changés. Une jolie prouesse. Au service, pour l'heure, des happy few.

Seuls quelques chercheurs patentés -- une centaine par mois -- peuvent consulter les archives de l'INA et de la BNF... à la BNF. Même les bibliothèques partenaires en région n'y ont pas accès. Tout un chacun pourrait pourtant explorer cette base de données de chez lui. Internet Archive a en effet mis en point, en 2000, une application librement accessible en ligne, Wayback Machine , qui permet de bénéficier des fruits du travail des crawlers. Les raisons de l'accès restreint sont d'ordre légal, et politique.

«Les bibliothèques ont été bien trop timides pour défendre l'accès ouvert, insiste Julien Masanès, du coup les règles du jeu ont été fixées par d'autres [l'industrie musicale, ndlr] , et pour d'autres types de contenus. Or, ces archives n'auront une importance que si elles sont dans Internet.» Dès lors, l'internaute qui tombe sur un «404 Not Found», marque détestable d'une adresse introuvable, serait redirigé aussitôt vers l'archive disparue.

Frileuses, les bibliothèques ? Prudentes avec le droit, comme l’Etat, la Commission nationale de l’informatique et des libertés (Cnil) et les éditeurs qui refusent, en France, son ouverture. Pourtant, la préservation de ce fonds culturel numérique plus évanescent que jamais impliquerait de réfléchir à des dérogations, estiment certains bibliothécaires.

Quant au Consortium international pour la préservation d’Internet (IIPC) où la BNF et l’INA jouent un rôle moteur aux côtés d’Internet Archive, il peine à devenir le lobby qu’il devrait être. S’il facilite les échanges entre institutions, il se heurte à l’incompatibilité des différentes lois nationales protégeant les droits d’auteurs, la question du respect de la vie privée et des données personnelles étant de surcroît agitée comme un épouvantail.

Des moyens dans le domaine privé

Mais tout n'est pas joué. «Cela fait cinq ans qu'on attend le décret [de la loi Dadvsi, ndlr]» , soupire Gildas Illien. Actuellement sur le bureau du Conseil d'Etat, «il est censé préciser les modalités d'accès du public aux archives. Et aussi le champ du "Web français"» . Car les 2 millions de sites mis dans le périmètre de la BNF ne représentent jamais qu'un tiers des adresses hexagonales. Serait-il possible pour les acteurs publics de l'archivage numérique d'aller plus loin, et de gérer des masses de données encore plus grandes ?

Pour l'heure, force est de constater que l'expertise et les moyens sont dans le domaine privé. Les moteurs de recherche et les réseaux sociaux «accumulent une masse faramineuse d'informations, dans l'opacité la plus totale. On ne réalise pas combien posséder un index géant à la Google est un privilège énorme» , dit Julien Masanès, visiblement agacé. «C'est comme si Areva dirigeait le Cern [l'Organisation européenne pour la recherche nucléaire, ndlr]. Imaginez toute la recherche sur les particules dépendant d'une entreprise privée.» Imaginons quelle mine pour l'analyse des relations sociales, des images du monde, des cultures adolescentes, ou encore des représentations du normal et du pathologique pourraient constituer les archives de Facebook, des Skyblogs, ou des forums de Doctissimo, sous réserve que l'anonymat des données soit protégé.

«Nous n'avons pas vocation à devenir un cimetière, résume Jean-Michel Rodes, directeur des collections à l'INA. Nous sommes au tout début de ce média. A nous de construire une science du Web et d'imaginer les usages de demain.»

(1) La loi précise que «sont soumis au dépôt légal les signes, signaux, écrits, images, sons ou messages de toute nature faisant l'objet d'une communication au public par voie électronique» .

Lire les réactions à cet article.

Pour aller plus loin :

Dans la même rubrique

Les plus lus