Archives du Web : une vision

Pour commencer l’année sur une note lyrique, j’ai envie de revenir sur quelques réflexions qui me sont venues lors d’IPRES et de la journée « Active Solutions » d’IIPC. En effet, à cette occasion, pas seulement parce que je me trouvais en Californie, qu’il faisait brumeux le matin et soleil l’après-midi et que San Francisco est une ville magnifique, mais aussi parce que j’étais bien entourée et parce que les organisateurs desdits événements ont fait un boulot superbe, j’ai eu l’impression de transcender la connaissance que j’avais de l’archivage du Web, ses modalités et ses finalités.

Pour comprendre, il faut dire que je côtoie l’archivage du Web depuis maintenant quelques années, géographiquement et intellectuellement, et de suffisamment près pour m’être forgé quelques idées fausses (ou idées reçues) sur cette activité. Pour les énoncer un peu comme ça en vrac :
– l’archivage du Web, c’est intrinsèquement lié au dépôt légal ;
– les utilisateurs sont des gens du futur qu’on ne connaît pas et dont on ignore les vrais besoins ;
– les gens qui font de l’archivage du Web sont une toute petite communauté avec des compétences et des besoins très spécifiques.
Et oui, il a fallu que je traverse la planète pour enfin comprendre la portée de cette activité qui se déroulait juste là, à côté de moi, sous mes yeux depuis des années.

D’abord, je me suis rendu compte que l’archivage du Web, ce n’est pas seulement le dépôt légal, et de fait, cela ne concerne pas que les bibliothèques nationales. L’archivage du Web est un ensemble de techniques qui permettent de constituer une collection locale et pérenne à partir de contenus accessibles en ligne. En fait, il y a une multitude d’applications possibles à cela : archiver des périodiques en ligne comme le fait LOCKSS, constituer des collections de sources pour des équipes de chercheurs d’une université, archiver ses propres publications Web pour en garder la mémoire, etc.
Vu comme cela, l’archivage du Web peut être utilisé par tout type d’établissement, et à une variété d’échelle. Les « private LOCKSS networks » utilisent ainsi le dispositif technique de LOCKSS, à l’origine conçu pour collecter des revues en ligne, pour collecter des archives Web partagées de toute sorte. Le service « Archive It » proposé par Internet Archive permet à des institutions qui n’ont pas les moyens de mettre en place des processus d’archivage du Web de constituer quand même ce type de collections, en se reposant sur un intermédiaire technique. Bref, dès lors qu’on est capable de cibler les besoins d’un public et de s’organiser en processus, on peut constituer une collection, dont le public en question n’est donc pas forcément lointain et hypothétique : il existe un besoin et un public pour les archives du Web, tout de suite, maintenant.
En fait, dans un monde où la plupart des médias et des contenus que nous connaissons effectuent une translation vers le Web, les archives du Web permettent d’envisager l’archivage de ce qui n’est pas archivable, c’est-à-dire tout le contexte d’une activité ou d’un événement tel qu’il transparaît à travers les publications et les conversations sur le Web. Tout est là, disponible, en ligne : les logiciels, les réseaux sociaux, les données et les sources que les chercheurs utilisent, la documentation que les utilisateurs créent eux-mêmes sur leur vie et mettent en ligne. Ainsi, la meilleure façon de donner une idée dans le futur de ce que sont les mondes virtuels comme Second Life, n’est-elle pas d’archiver les blogs, les copies d’écran, les extraits vidéo… qui sont la capture, par les utilisateurs eux-mêmes, de ce qui se passe dans ces univers…
C’est ici que cela fait vraiment sens de parler « d’archivage » du Web, car on est dans des démarches documentaires qui travaillent sur la source, le contexte, le fonds, dans une logique plus proche de l’archivistique que de la bibliothéconomie.

Là où cela devient intéressant, c’est que ces archives du Web de toute nature, ces collections, elles ont une homogénéité matérielle sans précédent. A l’image du matériau qui les constituent, les collections Web sont totalement granulaires, et intégrées : elles sont à la fois constituées d’unités très petites, et à la fois globales car toutes ces unités sont compatibles entre elles. De plus, elles sont élaborées par une communauté qui a su s’organiser pour partager ses outils, ses formats, ses processus.
Ce qui fait que les archives du Web sont en fait une grande collection partagée, techniquement et structurellement homogène. C’est la politique documentaire qui fait la spécificité des différents « nœuds » de cette grande collection, qui justifie que telle bibliothèque conserve telles données, et telle autre, etc.
Qui dit homogénéité technique et collection partagée suppose une approche de la préservation numérique cohérente et globale. Les travaux effectués sur le format WARC (qui permet de stocker les archives du Web et de les exploiter) laissent entrevoir une réflexion plus que prometteuse en ce sens : en effet ce format a été réfléchi dès le départ pour intégrer les problématiques de gestion des fichiers mais aussi de leurs métadonnées, y compris les métadonnées techniques et de provenance si nécessaires à la préservation. Il gère aussi les liens entre les fichiers, les versions, les métadonnées.
Du point de vue des stratégies de préservation, il me semble que les archives du Web nous ont fait vraiment avancer en nous obligeant à reconsidérer la traditionnelle opposition binaire entre migration et émulation. Il y a quelques années, on pensait qu’on ne pourrait jamais préserver quoi que ce soit sans migrer. Puis revirement à 180° : on s’est rendu compte qu’on n’aurait pas les moyens de migrer, et tout à coup on ne jurait plus que par l’émulation. Les stratégies envisagées actuellement sont plus subtiles, elles cherchent à combiner les deux approches, à trouver un équilibre. Il n’y aura pas de traitement unique et radical pour la conservation à long terme d’un matériau aussi divers, souple et mouvant que les archives du Web.

Évidemment, nous sommes encore au début de l’histoire des archives du Web et il y a encore des problèmes, d’énormes problèmes (c’est le mot) : d’abord la masse… Des millions ou milliards de fichiers… des centaines ou milliers de Teraoctets… des dizaines ou centaines de formats… nous sommes face à une échelle qui peut donner l’impression d’un défi un peu fou, limite décourageant.
La maturité des outils et des processus laisse encore à désirer, face à des choses qu’on n’a pas encore essayé de faire et qui sont donc encore au stade de la théorie (comme migrer l’ancien format de stockage des archives Web, ARC, vers le nouveau format normalisé WARC) : il va falloir progresser à petits pas, expérimenter, commencer petit sans se laisser démonter par l’ampleur du chemin à parcourir.
Et puis il y a le Web lui-même, dans ses composantes les plus complexes : le web caché (dans des bases de données) – le Web verrouillé (derrière des mots de passe ou des DRM) – le Web exotique et bizarre (en termes de formats de fichiers, qui chaque jour naissent et meurent…) – le Web spammé et vérolé (mais c’est quand même le Web : ne faut-il pas aussi en garder la mémoire ?)

Mais malgré tout, je me disais, là-bas à San Francisco, que cette petite communauté (mais pas si petite que ça en fait) des Web-archivistes, avec son action pragmatique, efficace, une fois qu’elle aurait avancé et résolu ces problèmes, allait nous aider à absorber d’une façon plus globale les défis de gestion et de préservation des autres types de collections numériques.
A San Francisco, j’ai eu une vision : celle d’une révolution copernicienne. De la même façon que le Web est en train d’absorber l’information du monde, les archives du Web finiront par se présenter assez naturellement comme la solution technique la plus simple pour traiter, par exemple, la collecte de machins numériques de toute sorte, le versement de ces machins dans les systèmes de préservation, la migration de gros volumes de données, le pilotage des stratégies d’émulation, la gestion des moyens, des coûts et des indicateurs, etc. etc.
Enfin, parmi les trucs (le « contexte ») que l’on va pouvoir archiver sur le Web, il y aura aussi tous les facilitateurs de préservation numérique : la documentation des logiciels et des formats par exemple.
C’est un peu fou de penser qu’aujourd’hui, on a une approche complètement dissociée de nos techniques documentaires traditionnelles et de l’archivage du Web. Ainsi, toutes les travaux de constitutions des répertoires de formats (Pronom, UDFR etc.) ont mis tout ce temps à déboucher sur une initiative expérimentale de publication dans le linked data appelée P2. Dans le linked data, c’est à dire sur le Web. Pourquoi on se tuerait à inventer des processus de réplication, de partage de données, etc. alors qu’ils existent déjà, entre le Web sémantique et les archives du Web…
Pareil pour la gestion des collections d’objets numériques. On est en train de construire des usines à gaz spécifiques pour gérer les millions de fichiers qu’on produit dans le cadre de nos ambitieux programmes de numérisation. Franchement c’est du très beau travail, mais je suis sûre qu’on finira par se réveiller un matin et se rendre compte que les bibliothèques numériques ne sont qu’une collection Web parmi d’autres. Non ? Et qu’avec l’archivage du Web, on a déjà des solutions scalables, pragmatiques, efficaces.
Il reste un truc qui me manque dans cette vision, c’est de savoir comment on pourrait rapprocher tout cela de nos réflexions sur la publication des données de bibliothèques dans le Web sémantique. Tout est une question de données qui sont là présentes sur le Web et qu’on relie entre elles. Il me semble que si on arrivait à progresser vraiment sur la publication des données structurées dans le Web sémantique, en utilisant des technos vraiment Web comme le fameux HTTP-range14 (plus connu sous le nom de « Cool URIs for the semantic Web »), on arriverait aussi à faire progresser les services qu’on est capable de construire sur les archives du Web ; de faire un peu mieux que la recherche par URL et la recherche plein-texte à pertinence relative ; et peut-être même de construire des choses intéressantes en matière de collecte ciblée et de stratégies de continuité de collection et de conservation.
Mais pour l’instant tout ceci n’est encore qu’au stade de l’intuition.

Pour en savoir plus, deux articles à lire dans l’ouvrage Les collections électroniques, une nouvelle politique documentaire (sous la dir. de Pierre Carbone et François Cavalier, éditions du Cercle de la Librairie, collection Bibliothèques, 2009) :
– « Quelle politique documentaire pour l’archivage des sites internet » par Gildas Illien et Clément Oury
– et « La conservation des documents numériques » par votre serviteuse.

3 réflexions sur “Archives du Web : une vision

  1. Commentaire obligatoire : je ne suis pas archiviste ;)

    Dans le domaine des archives traditionnelles de l’objet matériel, il me semble qu’un des points importants est la duplication : C’est à dire la reproduction à l’identique d’un objet en de nombreux endroits. Cette duplication créé des contraintes (stockage, duplication du travail parfois), mais elle assure aussi une certaine forme de pérennité (réduction de la fragilité, indépendance entre le lieu de l’objet physique et de sa référence dans le modèle).

    En revanche le Web propose un identifiant mais pour une copie unique très souvent d’un contenu, ce qui est pratique mais aussi fragile. L’URI en tant qu’identifiant seul et indépendant de sa localisation n’est pas rentré dans les mœurs.

    L’autre enjeu aussi est que l’archive Web est un processus continu. Le contenu peut changer en permanence pour un identifiant donné (ce qui a un effet de bord très intéressant sur les lois de protection des contenus.)

    Le contenu actuel des bibliothèques peut être rendu disponible et une même œuvre peut avoir plusieurs URIs de localisation et un URI unique d’identification. Et même si celui ci n’est pas unique, ce n’est pas si grave owl:sameAs est là pour cela. Mettre à disposition d’abord et recoller ensuite les morceaux, car le fait que la contrainte de l’espace physique n’existe plus en ligne, le tube de colle est également plus facile à utiliser. Mais j’ai une vue qui est peut-être trop pragmatique.

  2. Bonjour,
    Je suis désolée, l’article a bien été écrit en anglais et nous n’avons pas eu le temps de le traduire. Vous trouverez un article en français sur un sujet proche dans les actes du congrès de l’année précédente à Montréal.

  3. Bonjour,
    J’ai lu avec intérêt votre contribution à l’IFLA 2009, que je compte citer dans une communication sur les coûts de l’archivage électronique lors du prochain congrès des archivistes européens à Genève en avril prochain.

    Je m’étonne cependant que votre communication n’ait pas été également publiée en français sur le site de l’IFLA (car je suppose que c’était la langue de rédaction originale). Avez-vous l’intention de le rendre disponible dans cette langue ?

    Amicalement.

Les commentaires sont fermés.