Mon archivage aDORe

Je viens de découvrir, à travers Lorcan Dempsey et Peter Suber, un système (un software) d’archivage de documents numériques qui s’appelle aDORe et qui a l’air assez intéressant.

Le système repose sur l’archivage de paquets, en appréhendant ces paquets non pas de façon documentaire (un objet = un document) mais de façon pragmatique comme des trains de bits continus qu’on va ranger dans des boîtes. Cette approche est particulièrement utile quand on gère une archive qui reçoit des gros batch de 1.000 à 100.000 documents… Chaque batch est donc considéré comme un paquet. aDORe dissocie pour chacun de ces gros paquets les métadonnées, qui vont être enregistrées en continu sur une « cassette XML » nommée XMLtape, et les documents eux-mêmes qui sont encapsulés dans des fichiers ARC (le format de fichier de l’archivage du Web).

On peut stocker n’importe quel format de fichier dans un ARC, les différents fichiers étant séparés les uns des autres par des métadonnées textuelles et identifiés par une URI : c’est ce qu’on appelle les « ARC records ». ARC étant un format conçu pour contenir plein de fichiers dans une boîte, il atomise le problème de la granularité en le renvoyant aux métadonnées associées.

Les métadonnées associées sont enregistrées ici dans le format qui nous fait le plus plaisir pour gérer des objets complexes (METS, MPEG21 ou autre) et stockées dans la fameuse XMLtape, qui est aussi une sorte de capsule. Celle-ci peut contenir jusqu’à 1.000.000 de descriptions de documents.
Grâce à l’utilisation des formats de gestion des objets complexes, on a la possibilité d’utiliser ces métadonnées pour gérer la structure et la granularité des objets : ces métadonnées vont faire référence aux identifiants (URI) présents dans les fichiers ARC pour organiser les fichiers suivant leur structure logique.

A l’intérieur des ARC, on a donc des « ARC records », c’est à dire des enregistrements qui correspondent à un fichier numérique (au niveau de granularité le plus fin) et qui sont identifiés par une URI. Dans les métadonnées stockées sur la cassette XML, on se « raccroche » à ces URI grâce à un lien encodé suivant le protocole OpenURL.
Ensuite, on va créer pour chaque ARC un résolveur OpenURL, et pour chaque XMLtape un entrepôt OAI. Donc, on obtient finalement un stock de métadonnées en XML accédées via l’OAI, et un stock d’objets numériques accédés via un résolveur OpenURL.

Pour récapituler en s’appuyant sur le modèle OAIS :
La première opération compliquée est la constitution du SIP. On constitue les XMLtape et les ARC, mais avec le pré-requis que l’on dispose de métadonnées au format METS ou MPEG21, et que celles-ci contiennent des liens au format OpenURL (pas insurmontable, mais il faut y penser avant). A tous les niveaux, il faut aussi gérer l’attribution de plein d’identifiants uniques et pérennes dont on aura besoin pour l’accès.
L’avantage, c’est qu’une fois qu’on a fait cette opération, on ne touche plus à rien : le SIP, l’AIP et le DIP sont physiquement confondus. Cela suppose qu’on n’a pas d’opération à faire sur ces paquets (une migration de format par exemple) donc qu’on maîtrise bien le contenu, ou sinon il faut les re-verser intégralement (avec de nouvelles métadonnées, et de nouveaux identifiants).
En fait, l’AIP est un couple XMLtape/fichiers ARC qui lui correspondent, et le DIP est un couple métadonnées MPEG21 ou METS/objet numérique.
On dispose de tous les éléments qui permettent d’accéder au DIP, quelle que soit la granularité qui nous intéresse, ce qui semble être le principal atout de ce système. On peut lui brancher de façon modulaire n’importe quel système d’indexation et de visualisation, et en changer si nécessaire.

A première vue, je dirais que c’est un système qui doit bien marcher si vous archivez des choses qui sont déjà dans un format pérenne, qui ont une structure simple et identifiée, et qui ont déjà une URI ou un identifiant à chaque niveau de granularité. Les concepteurs mettent l’accent sur le côté fiable, dans une optique de préservation, du couple ARC/XMLtape, qui évite d’avoir à toucher aux fichiers : c’est très bien, sauf si on a besoin de toucher aux fichiers pour les conserver… une belle enveloppe ça ne sert à rien, si elle contient des trucs affreux.
Enfin, la flexibilité des conditions d’accès est quand même très séduisante.
Finalement, tout cela ressemble beaucoup aux infrastructures qu’on connaît pour l’archivage du Web, sauf qu’on y rajoute une couche de métadonnées de structure agrémentée d’OpenURL, pour en faire une architecture plus proche des besoins des bibliothèques numériques.

ADORe est un logiciel open source du Los Alamos National Laboratory.

NB : il est impossible d’y comprendre quoi que ce soit sans lire cet article. J’ai fait mon possible pour simplifier et synthétiser mais ce n’était pas très évident. Désolée.