Confiture bibliothéconomique

Allez, maintenant que j’ai un peu retrouvé la forme, il faut bien élaguer un peu le résidu des vacances. Confiturons.

Merci à toujours les mêmes (Catalogablog, 10KYBlog, etc. j’ai la flemme de mettre les liens.)

Quelques trucs

My Library Manual : un guide pour gérer des collections numériques avec le logiciel MyLibrary. La permière partie est assez largement applicable au-delà de ce seul logiciel.

Un arbre de décision pour décider quelles collections doivent entrer dans un entrepôt de préservation. Le système de l’arbre est marrant.

Oxford Journals signe avec Portico, le système d’archivage de Jstor. Auquel adhère aussi Elezvier.

Gérer les risques de votre institutionnal reposritory : cela devrait être la première étape du projet. Beaucoup plus conceptuel qu’il n’y paraît. Je vous raconterai, un jour. Ceci dit, celui-ci me paraît un peu optimiste, pour le coup.

Dossier sur les métadonnées sur bibliodoc. Il y est aussi question d’identifiants.

Coupure

Avant-hier, mon hébergeur a eu un gros problème technique : une coupure de courant de plusieurs heures chez leur propre hébergeur (celui qui héberge leurs serveurs). On peut lire le compte-rendu de l’incident.

En voyant ça je me suis fait aussitôt deux réflexions :

  • qui a parlé de « dématérialisation » ?
  • ça serait pas un truc compliqué, de préserver l’accès à des collections numériques ?

Conserves

Il y a une nouvelle liste de discussion gérée par le JISC sur le thème des entrepôts de données numériques.

Il y a un nouveau site propulsé par la Bibliothèque nationale des Pays-Bas (KB) pour réfléchir sur l’accès à très long terme aux documents scientifiques sous forme électronique.

Il y a Lorcan Dempsey qui partage ses réflexions sur le problème de la conservation pour les bibliothèques numériques.

C’est intéressant… mais je suis un peu occupée par autre chose.

Ici et ailleurs

Je vous propose une petite promenade internationale sur le thème de la préservation du document numérique, ici et ailleurs.

Ici, c’est aux Archives de France dont la directrice a donné une interview sur ce sujet. Plus que les propos de Madame la DAF, ce sont les questions posées qui m’interpellent :

Depuis quelques années, le nombre des sites Internet, de blogs, de forums est en croissance exponentielle. Ces données numériques fonctionnent comme révélateurs d‘une époque, d’un mode de vie, d’une société. Comment conserver cette mémoire numérique ? Comment trier, conserver et transmettre aux générations futures cette colossale masse d’information ?

Je crois qu’il n’est pas clair pour tout le monde qu’écrire un blog, c’est faire acte de publication, avec tout ce que ça implique. Traditionnellement, les Archives conservent des documents produits au cours d’une activité (généralement administrative), je vous renvoie à la Loi sur les archives pour ça. Les publications (dont les blogs) relèvent pour leur part du Dépôt Légal, donc de la future loi DADVSI.

Ici toujours, la Gazette du Cines s’intéresse aussi à l’archivage pérenne des documents numériques.

Ailleurs, maintenant.
Pas très loin, en Belgique, on apprend que l’Université Catholique de Louvain va utiliser VITAL (de VTLS) pour gérer son "digital repository". C’est peut-être une des premières percées de nos éternels fournisseurs de SIGB sur le marché de la préservation numérique (quelqu’un a des infos sur des expériences antérieures dans ce domaine, ou avec d’autres fournisseurs de SIGB ?) VITAL est basé sur le système open source Fedora.
En Espagne, on peut lire ce billet où il est question, également, de patrimoine numérique, de dépôt légal, et du rôle des bibliothèques.

Et maintenant, un peu de lecture…
A consulter, cette bibliographie (pdf) sur la préservation du document numérique.
A lire, ce rapport des archives nationales de Grande Bretagne : Your Data At Risk: Why you should be worried about preserving(pdf, 15p.).
A re-lire, ce rapport daté d’août 2003, par la NSF et la LOC, intitulé It’s about time (pdf, 52 p.), qui faisait le point sur les enjeux de la recherche et des actions à mener dans le domaine du numérique.
A dépouiller, les communications de la conférence PV2005 sur le même thème.
A dénicher tant bien que mal, un livre sur les "institutional repositories" paru ou à paraître en janvier 2006, en espérant qu’une de nos bibliothèques françaises (hum, parisienne si possible, merci) ait la bonne idée de l’acheter.
A saluer, la naissance de nouveaux blogs tournés vers la conservation et l’archivage, numériques ou non :

  • Sous la poussière : peut-être le premier blog d’archiviste en France (euh en Suisse) (quelqu’un a des infos sur les blogs d’archivistes francophones sinon ?)
  • IST-677 : un blog pédagogique sur la préservation du document numérique, piloté par Digitization 101 ce qui assure des contenus de qualité.

Merci à Culture et Tic, Blogokat, FRBR, Deakialli, ResourceShelf, 10kyBlog, Digital Curation News, et Lorcan Dempsey.

Répertoires de formats

J’ai déjà eu l’occasion de vous parler des répertoires de formats et de leur utilité pour la préservation du document numérique ici ou . Comme j’ai eu la chance depuis de me pencher de plus près sur ce problème, je vous livre quelques idées et liens utiles.

Alors d’abord, pourquoi un répertoire de formats ? La question peut être abordée de plusieurs points de vue :

  • la sélection : j’ai un contenu, dans quel format le représenter ?
  • l’identification : j’ai un objet numérique, dans quel format est-il ?
  • la validation : j’ai un objet numérique censé être au format X, est-ce exact ?
  • la caractérisation : j’ai un objet au format X, quelles sont ses propriétés ?
  • l’évaluation : J’ai un objet au format X avec des propriétés Y, quel est le risque d’obsolescence ?
  • le traitement : j’ai un objet au format X avec des propriétés Y, comment réaliser l’opération Z sur ce format ?

Répondre à toutes ces questions revient à parcourir les différentes étapes qui vont nous conduire de la création du document numérique à sa préservation sur le long terme, en passant par l’étape essentielle qu’est l’injection dans une archive OAIS. Parce que dans cette archive on a besoin de savoir la nature de ce qui est conservé, et parce qu’on a besoin de créer des programmes capables d’émuler ou de migrer ce contenu, avoir un référentiel qui contient les moyens d’identifier ces formats et leurs spécifications est indispensable.

Cette prise de conscience n’est pas nouvelle dans le monde du numérique, et il existe aujourd’hui différentes initiatives qui visent au moins en partie à atteindre cet objectif.

D’abord il y a des choses qui existent depuis un bout de temps et n’ont pas un objectif de conservation : par exemple le répertoire des MIME TYPE de l’IANA, celui du département de la justice américain (à vendre sur CD-Rom), ou le Wotsit des programmeurs. Aucun de ces répertoires ne répond au besoin spécifique de conservation, parce qu’il manque des données essentielles et notamment les signatures, internes ou externes, qui permettent d’identifier (automatiquement de préférence) le format auquel on a affaire.

A l’opposé, on trouve des initiatives dont l’objectif est exclusivement l’évaluation en vue de la conservation, et qui mettent donc l’accent sur la méthodologie d’évaluation des risques d’obsolescence des formats. Parmi ceux-ci, je citerai deux initiatives : l’Inform Metodology d’OCLC et le travail de la Library of Congress sur les formats.
La première est au sens strict une méthologie de gestion des risques. Je pense qu’elle a plus ou moins été appliquée par la NLA qui n’a hélas pas encore publié les résultats de son travail.
La seconde est une méthodologie de projet de numérisation, qui inclut le problème de la sélection d’un format quand on numérise. L’approche est assez complète mais il manque le principe de la validation automatique du format, c’est à dire l’utilisation de logiciels qui vérifient la conformité du format et de ses propriétés par rapport aux attentes de l’archive. C’est donc une approche bibliothéconomique assez classique. Par contre, la méthode d’évaluation en vue de la préservation est intéressante.

Et puis pour finir je parlerai des répertoires de formats qui ont pour but l’identification et la validation des formats, tout en étant neutres et objectifs (pas d’évaluation donc), ce qui augmente les chances de recevoir des descriptions de formats propriétaires de la part de leurs producteurs. L’un d’eux, dont j’ai déjà parlé, est Pronom avec son outil DROID. En apparence, on a là celui qui va le plus loin dans l’accomplissement de l’objectif cité, puisqu’il est le seul à mettre au point un répertoire de formats avec l’outil qui va avec pour les identifier automatiquement. Dans les faits, il est encore assez peu rempli.

Le dernier dont je parlerai ici, GDFR , mérite un coup de chapeau car il vient d’obtenir 2 ans de financement de la part de la Mellon foundation. Propulsé par les gens de la bibliothèque universitaire d’Harvard, GDFR a pour objectif de constituer un répertoire de formats neutre, global, international, complet, etc. Il s’est doté d’un modèle de données qu’on peut voir à l’oeuvre dans l’expérimentation FRED, c’est -à-dire qu’il s’est doté de règles qui définissent le contenu de la description d’un format, incluant un identifiant pérenne ce qui est très utile pour toutes sortes d’applications. Pas loin de GDFR, on trouve aussi un outil de validation automatisée : JHOVE qui contrairement à DROID, ne fonctionne pas en attanquant directement un répertoire de formats, mais grâce à des plug-ins qui contiennent les infos nécessaires. En cela JHOVE est une sorte d’outil inachevé, et on peut espérer qu’avec le développement de GDFR il deviendra plus complet. Lire cet article intéressant sur GDFR.

Monsieur Stephen Abrams, de Harvard, est personnellement une mine d’informations que je remercie pour son défrichage intense du sujet (en espérant qu’il pardonnera mes récupérations parfois littérales de ses idées). Il était à Gottingen pour iPRES et vous pouvez lire, écouter et même regarder son intervention ici. Merci aussi à Julien dont j’ai récupéré l’historique.

Lien vers la version officielle.

Mon archivage aDORe

Je viens de découvrir, à travers Lorcan Dempsey et Peter Suber, un système (un software) d’archivage de documents numériques qui s’appelle aDORe et qui a l’air assez intéressant.

Le système repose sur l’archivage de paquets, en appréhendant ces paquets non pas de façon documentaire (un objet = un document) mais de façon pragmatique comme des trains de bits continus qu’on va ranger dans des boîtes. Cette approche est particulièrement utile quand on gère une archive qui reçoit des gros batch de 1.000 à 100.000 documents… Chaque batch est donc considéré comme un paquet. aDORe dissocie pour chacun de ces gros paquets les métadonnées, qui vont être enregistrées en continu sur une « cassette XML » nommée XMLtape, et les documents eux-mêmes qui sont encapsulés dans des fichiers ARC (le format de fichier de l’archivage du Web).

On peut stocker n’importe quel format de fichier dans un ARC, les différents fichiers étant séparés les uns des autres par des métadonnées textuelles et identifiés par une URI : c’est ce qu’on appelle les « ARC records ». ARC étant un format conçu pour contenir plein de fichiers dans une boîte, il atomise le problème de la granularité en le renvoyant aux métadonnées associées.

Les métadonnées associées sont enregistrées ici dans le format qui nous fait le plus plaisir pour gérer des objets complexes (METS, MPEG21 ou autre) et stockées dans la fameuse XMLtape, qui est aussi une sorte de capsule. Celle-ci peut contenir jusqu’à 1.000.000 de descriptions de documents.
Grâce à l’utilisation des formats de gestion des objets complexes, on a la possibilité d’utiliser ces métadonnées pour gérer la structure et la granularité des objets : ces métadonnées vont faire référence aux identifiants (URI) présents dans les fichiers ARC pour organiser les fichiers suivant leur structure logique.

A l’intérieur des ARC, on a donc des « ARC records », c’est à dire des enregistrements qui correspondent à un fichier numérique (au niveau de granularité le plus fin) et qui sont identifiés par une URI. Dans les métadonnées stockées sur la cassette XML, on se « raccroche » à ces URI grâce à un lien encodé suivant le protocole OpenURL.
Ensuite, on va créer pour chaque ARC un résolveur OpenURL, et pour chaque XMLtape un entrepôt OAI. Donc, on obtient finalement un stock de métadonnées en XML accédées via l’OAI, et un stock d’objets numériques accédés via un résolveur OpenURL.

Pour récapituler en s’appuyant sur le modèle OAIS :
La première opération compliquée est la constitution du SIP. On constitue les XMLtape et les ARC, mais avec le pré-requis que l’on dispose de métadonnées au format METS ou MPEG21, et que celles-ci contiennent des liens au format OpenURL (pas insurmontable, mais il faut y penser avant). A tous les niveaux, il faut aussi gérer l’attribution de plein d’identifiants uniques et pérennes dont on aura besoin pour l’accès.
L’avantage, c’est qu’une fois qu’on a fait cette opération, on ne touche plus à rien : le SIP, l’AIP et le DIP sont physiquement confondus. Cela suppose qu’on n’a pas d’opération à faire sur ces paquets (une migration de format par exemple) donc qu’on maîtrise bien le contenu, ou sinon il faut les re-verser intégralement (avec de nouvelles métadonnées, et de nouveaux identifiants).
En fait, l’AIP est un couple XMLtape/fichiers ARC qui lui correspondent, et le DIP est un couple métadonnées MPEG21 ou METS/objet numérique.
On dispose de tous les éléments qui permettent d’accéder au DIP, quelle que soit la granularité qui nous intéresse, ce qui semble être le principal atout de ce système. On peut lui brancher de façon modulaire n’importe quel système d’indexation et de visualisation, et en changer si nécessaire.

A première vue, je dirais que c’est un système qui doit bien marcher si vous archivez des choses qui sont déjà dans un format pérenne, qui ont une structure simple et identifiée, et qui ont déjà une URI ou un identifiant à chaque niveau de granularité. Les concepteurs mettent l’accent sur le côté fiable, dans une optique de préservation, du couple ARC/XMLtape, qui évite d’avoir à toucher aux fichiers : c’est très bien, sauf si on a besoin de toucher aux fichiers pour les conserver… une belle enveloppe ça ne sert à rien, si elle contient des trucs affreux.
Enfin, la flexibilité des conditions d’accès est quand même très séduisante.
Finalement, tout cela ressemble beaucoup aux infrastructures qu’on connaît pour l’archivage du Web, sauf qu’on y rajoute une couche de métadonnées de structure agrémentée d’OpenURL, pour en faire une architecture plus proche des besoins des bibliothèques numériques.

ADORe est un logiciel open source du Los Alamos National Laboratory.

NB : il est impossible d’y comprendre quoi que ce soit sans lire cet article. J’ai fait mon possible pour simplifier et synthétiser mais ce n’était pas très évident. Désolée.

Qu’est-ce que le modèle OAIS ?

L’OAIS est un modèle conceptuel pour l’archivage de documents (numériques en particulier). Cela signifie qu’il constitue une référence décrivant dans les grandes lignes les fonctions, les responsabilités et l’organisation d’un système qui voudrait préserver de l’information, en particulier des données numériques, sur le long terme. Le long terme est défini comme suffisamment long pour être soumis à l’impact des évolutions technologiques, c’est à dire, pour ce qui concerne le document numérique, très court en fait.
L’OAIS a été défini au départ dans le domaine aérospatial, par le CCSDS qui est l’organisme de normalisation de ce domaine. Aujourd’hui il est très largement adopté au-delà de cette communauté et il a été reçu comme norme par l’ISO sous le numéro 14721.

Que fait / ne fait pas l’OAIS ?

Ce que fait l’OAIS :

  • il donne une terminologie fiable et unique pour manipuler tous les concepts liés à la préservation des données numériques
  • il fait le tour de toutes les questions à se poser au moment de mettre en place un système de préservation
  • il décrit les composantes d’un tel système au niveau de l’organisation interne et externe

Ce qu’il ne fait pas :

  • il ne donne pas de formats, schémas, règles ou techniques pour préserver les documents numériques
  • il ne décrit pas les applications informatiques et techniques à mettre en œuvre, ni logicielles, ni matérielles
  • il ne donne pas de méthodologie concrète de réalisation d’un tel système (cahier des charges, workbook ou autre).

Les grands principes du modèle peuvent être décrits par un schéma simple (mais également par un schéma compliqué si on veut ;-) cf. ci-dessus (cliquer sur l’image pour agrandir). En gros, le modèle est conçu comme une boîte dans laquelle on manipule des paquets. Cette boîte a un ou plusieurs rôles ou missions, et elle interagit avec les producteurs des données en amont, les administrateurs du système, et la communauté d’utilisateurs en aval.

Les paquets

Le modèle OAIS repose sur l’idée que l’information constitue des paquets, et que ces paquets ne sont pas les mêmes suivant qu’on est en train de produire l’information, d’essayer de la conserver, ou de la communiquer à un utilisateur. On a donc trois sortes de paquets :

  • les paquets de versement (SIP) préparés par les producteurs à destination de l’archive
  • les paquets d’archivage (AIP) transformés par l’archive à partir du SIP dans une forme plus facile à conserver dans le temps
  • les paquets de diffusion (DIP) transformés par l’archive à partir de l’AIP dans une forme plus facile à communiquer notamment sur le réseau.

Dans chaque paquet, à chaque stade, on va trouver des fichiers informatiques qui correspondent à l’objet ou au document qu’on veut conserver, et des informations sur ce document c’est à dire des métadonnées. Je ne vais pas rentrer dans le détail, mais la façon de constituer les paquets, y compris et surtout le genre de métadonnées dont on a besoin pour que ça ait une chance de fonctionner, sont très bien décrits dans le modèle.

Les missions d’une archive OAIS

Le but de la mise en place d’une archive OAIS est d’avoir une instance, cette archive, qui va endosser la responsabilité de la préservation à long terme des documents qu’on lui confie en vue de les communiquer à une communauté définie d’utilisateurs. Il y a plusieurs idées importantes ici :

  • la préservation se fait en vue de la communication
  • l’archive cible une communauté d’utilisateurs et s’efforce de répondre aux besoins de cette communauté.

Si on prend l’exemple d’une bibliothèque, la communauté n’est pas la même pour une BU que pour une bibliothèque publique, vous savez cela aussi bien que moi. Donc les services ne seront pas les mêmes non plus.
L’idée de responsabilité est très forte dans le modèle ; à tout moment l’archive doit savoir prouver qu’elle a bien fait son travail – surtout si elle échoue, j’imagine.
Cette responsabilité inclut les relations avec les producteurs : il s’agit de négocier des accords concernant les versements, en particulier les clauses techniques (l’archive et le producteur définissent ensemble à quoi doit ressembler le SIP). Cela inclut aussi le fait d’obtenir de la part du producteur tous les droits nécessaires à la manipulation des documents, en particulier les droits de propriété intellectuelle.
L’archive garantit aussi qu’elle fournira à sa communauté d’utilisateurs des documents compréhensibles, disponibles, et qu’elle mettra en œuvre tout ce qui est en son pouvoir pour préserver les documents dans le temps : c’est une sorte de contrat entre l’archive et sa communauté d’utilisateurs.

L’organisation

Le modèle OAIS va ensuite définir l’organisation de l’archive, c’est à dire comment elle doit s’y prendre pour gérer ses paquets sans rien oublier. Pour cela, on définit des entités organisationnelles et la façon dont elles s’articulent entre elles. Pour prendre un exemple, il y a une entité « entrées » dont le rôle est de recevoir les paquets SIP et de les transformer en paquets AIP ; cette entité est en relation avec l’entité « stockage » à qui elle confie les AIP. Elle a aussi d’autres rôles comme envoyer un accusé de réception au producteur pour certifier qu’elle a bien pris en charge son paquet, ce qui transfère la responsabilité du paquet du producteur vers l’archive.
Je ne vais pas détailler mais tout est un peu sur ce modèle. Les différentes entités sont :

  • les entrées
  • le stockage
  • la gestion des données (en fait, des métadonnées)
  • l’administration qui pilote le tout
  • la planification de la préservation qui prend en charge les actions de veille technologique pour décider des opérations à mettre en œuvre
  • et enfin, l’accès.

Chacune de ces entités a ses rôles, ses fonctions, et doit communiquer avec les autres sous la forme de flux de données. En réalité, tout cela est conceptuel, cela veut dire que dans la mise en œuvre réelle, on n’est pas obligé d’avoir des gens ou des services qui travaillent spécifiquement sur une et une seule de ces entités. Mais toutes les fonctions et les interactions doivent exister.

Migrations, émulations

Ensuite, le modèle OAIS aborde les différentes méthodes qui peuvent être utilisées plus concrètement pour pérenniser l’information. Il y en principalement deux sortes : la migration et l’émulation.
La migration consiste à prendre un AIP et à le transformer en autre chose. Il y a plusieurs sortes de migrations possibles en fonction du type de problème rencontré : par exemple, si on a un support qui se dégrade mais que le document enregistré dessus ne pose pas de problème, on procède à un simple renouvellement (rafraîchissement de support) ou on passe à un support plus récent (duplication). C’est le type de migration qui a le moins d’impact sur l’accès à l’AIP. Par contre, si c’est le format du document ou les logiciels associés qui posent problème, on aura des migrations plus musclées qui modifient la structure même de l’AIP et rendent nécessaire la gestion de versions d’AIP.
Dans l’émulation, on ne touche pas à l’AIP mais on s’efforce de conserver ou reproduire les conditions d’accès au document, de la manière la plus proche possible de ce qu’étaient les conditions de consultation à l’origine. C’est le mode qu’on utilise de préférence pour les documents dans des formats propriétaires et les documents qui ont des comportements très spécifiques, comme les jeux vidéos par exemple.

Et après ?

Maintenant qu’on sait tout cela, et qu’on a acquis la vision d’ensemble des problématiques de conservation des données numériques, ainsi qu’un début de solution pour mettre en œuvre un système d’archivage, yapuka… définir quel sera le stockage, quels seront les formats acceptés dans les paquets, les formats de métadonnées utilisés, les relations avec les producteurs, les services d’accès et de recherche, définir et acquérir ou développer des logiciels qui remplissent toutes ces fonctions, et surveiller de très près son archive, une fois qu’elle est bien remplie, pour s’assurer que les migrations et les émulations sont effectuées à temps. Car dans le domaine numérique, toute conservation est nécessairement préventive : quand on s’aperçoit qu’un document a été altéré, il est généralement trop tard pour faire quoi que ce soit.
Le modèle OAIS ne donne pas de clefs pour mettre tout ceci en œuvre et c’est sans doute la principale difficulté : comment passer de l’abstraction à l’application. En attendant qu’on nous propose des logiciels de type « MyOAIS » clef en main, il est probable qu’on devra s’en remettre, le plus souvent, à des archives centralisées ou à des tiers archiveurs privés. Ces derniers, pour prouver que le modèle OAIS n’est pas pour eux qu’une belle parole, devront sans doute obtenir un niveau de certification officiel et international. C’est pour demain.

Source : le modèle OAIS en français.

PS : Les documents protégés par des DRM ne pourront être, ni migrés, ni émulés. La loi interdisant (prochainement) de créer des logiciels qui retirent ces protections techniques, ainsi que des logiciels qui les ignorent ou les contournent, aucune solution ne pourra être apportée à leur conservation au-delà de la durée de vie de leur support ou de leur environnement matériel et logiciel. Si leurs producteurs ne font pas l’effort de confier à une archive OAIS une version débloquée et documentée (un SIP, quoi), ils seront perdus à jamais. Dommage, quand même.