Préservation numérique : accord Portico / KB

La Bibliothèque Royale des Pays-Bas (KB) et Portico annoncent qu’ils viennent de passer un accord. Ces deux acteurs sont des mastodontes dans le contexte de la préservation des revues électroniques.

Avec son service « e-depot », la KB se positionne comme archive fiable pour les revues, notamment celles qui sont éditées aux Pays-Bas (Elzevier, ça vous dit quelque chose ?) et a été l’une des premières grandes bibliothèques nationales à avoir un service de ce genre en production.
Portico, de son côté, est une organisation à but non lucratif qui offre des services aux revues qui ont besoin d’être préservées, et aux bibliothèques qui veulent s’y abonner.

En s’engageant à héberger une copie sécurisée de Portico dans ses emprises, la KB donne un bon exemple de la façon dont les acteurs majeurs de la préservation numérique peuvent collaborer sur le plan international pour se donner plus de chances de remplir leur mission (presque) impossible.
Avec le défi qui nous attend, on se sent plus en sécurité à plusieurs.

Organisation de la préservation numérique dans les BN

Ces derniers temps, quand je réussissais à m’arrêter de courrir deux minutes, je mon plongeais dans la lecture de ceci : Networking for digital preservation. Current practice in 15 national libraries. Rapport d’Ingeborg Verheul de la KB pour l’IFLA en 2006 sur un sondage effectué auprès de 15 bibliothèques nationales dans le monde sur leurs pratiques en terme de préservation numérique.

Je m’intéressais en particulier aux aspects organisationnels, qui sont bien mis en valeur dans ce rapport : que faut-il comme structure, entités, organisation pour savoir faire de la préservation numérique dans une bibliothèque nationale ?
Malheureusement, je manque d’énergie pour structurer vraiment ma pensée mais je vous livre en vrac quelques réflexions qui m’ont été inspirées par cette lecture.

La première, c’est que cette étude a été réalisée pour une section de l’IFLA qui s’appelle ICABS (Ifla-CDNL Alliance for Bibliographic Standards). On pourrait se demander, à priori, pourquoi des gens versés dans le biblographique s’intéresseraient soudain à la préservation numérique… Je crois que la réponse réside dans le fait que la préservation numérique est avant tout une question de bonne gestion de l’information (vous vous souvenez, les fameux « paquets » dans l’OAIS…)

Du coup on pourrait se demander, et la question est soulevée dans le rapport, si la préservation numérique doit vraiment être rapprochée de la conservation « traditionnelle ». Jusqu’à un certain point, elles jouent dans des cours bien différentes, mais elles peuvent avoir une méthodologie partagée (je pense par exemple à la gestion des risques).

D’une façon générale, le rapport rappelle à plusieurs reprises que la préservation numérique met en jeu des activités trop diversifiées pour qu’elles puissent être centralisées dans un seul service (aquisitions, catalogage, gestion de collection, informatique notamment). De fait, si les 15 bibliothèques interviewées ont toutes au moins une entité dédiée au numérique, aucune n’y concentre la totalité de son activité de préservation numérique. En fait il y a un phénomène d’évolution dans le temps : plus on est proche de la phase de démarrage, plus l’organisation est centralisée. Ensuite, quand l’activité de préservation numérique tend à entrer en phase de mise en oeuvre et de gestion quotidienne, les responsabilités sont de plus en plus réparties dans la bibliothèque en fonction de compétences déjà existantes. De plus la plupart de ces bibliothèques se dotent également de structures transverses telles que des groupes de travail dont le but est « d’ancrer la préservation numérique dans le quotidien futur de la bibliothèque, grâce à la coopération et au partage des connaissances ».

Certes, on a un peu l’impression d’enfoncer des portes ouvertes mais parfois ça va mieux en le disant.
En annexe, on trouve tous les organigrammes des bibliothèques interviewées ce qui est assez instructif aussi. On y découvre que la propension à une profusion organisationnelle parfois difficile à décrypter pour un oeil externe est une caractéristique partagée pour ce type d’établissement…

Quelques publications

Quand je ne suis pas occupée à écrire ce blog, il m’arrive parfois d’écrire ailleurs ; cela me semble utile de référencer un peu de cette bibliographie ici en vue de potentiels usages futurs. Ainsi j’ai été hébergée deux fois par la revue IPN, qui est la publication de la section Préservation de l’IFLA (plus connue sous le petit nom de « IFLA-PAC »).

La première fois c’était en décembre 2006 pour un article sur les identifiants pérennes qui est en fait une reprise de celui-ci, mais dans IPN il y a une traduction en anglais.

La seconde fois était dans le numéro de juillet 2007, où j’ai écrit une petite introduction sur la gestion des risques. C’était en fait une version rédigée de ce que j’ai présenté au Symposium IFLA PAC, intervention dont on peut consulter le diaporama ici.

Rapport de bugs

Suite au projet Chronicling America dont j’avais parlé tantôt, la Library of Congress a publié dans Dlib un article intitulé : Actualized Preservation Threats. Practical Lessons from Chronicling America tout à fait hallucinant. Cet article est en effet un don à la communauté des dévelopeurs de bibliothèques numériques : il énumère tous les ratés, bugs et autres erreurs humaines survenus pendant la mise en place de l’archivage des fichiers numériques.

Il s’agissait principalement de produire, en plus de la numérisation image et OCR, des fichiers au format METS, et de faire entrer le tout dans un entrepôt numérique sous Fedora.

Des plantages de disques durs, ça peut arriver à tout le monde. Des fichiers METS qui ont été validés mais contiennent encore des erreurs : que celui qui n’a jamais fait de XML leur jette la première balise. Par la suite ça devient plus croustillant : l’outil qui devait transformer les SIP en AIP (si vous ne me suivez plus, relisez votre OAIS), donc leur outil d’archivage, mettait un furieux désordre dans les balises et rendait les fichiers XML non valides. Mais le meilleur, c’est quand l’auteur de l’article confesse qu’il a lui-même supprimé pas mal de données sans le faire exprès à cause d’une fausse manipulation.

Avoir des petits problèmes de ce genre, ça arrive à tout le monde, mais faire un article rien que là-dessus dans une revue comme Dlib, il fallait oser : on leur dit merci, et que la force des bibliothèques numériques soit avec eux pour la suite.

Jeu-concours sur la préservation du numérique

Vous vous intéressez à la préservation du numérique ?
Vous êtes un geek (ou vous en avez un à portée de main) ?
Vous avez un peu de temps libre devant vous ?
Vous avez besoin d’un peu d’argent de poche (entre 500 et 3000 euros) ?

C’est peut-être le moment pour vous de participer au Digital Preservation Challenge proposé par le projet européen DPE sur la préservation numérique.
Le principe : on vous propose 6 scénarios dans lesquels vous aurez à récupérer des fichiers dans des formats plus ou moins exotiques et obsolètes, les analyser, trouver ou construire un migrateur ou un émulateur, et déterminer des stratégies de préservation scalables pour l’avenir. Chaque proposition sera évaluée non seulement en fonction du résultat obtenu, mais de la description des étapes qui ont permis d’y arriver (car comme chacun sait, préserver c’est avant tout savoir documenter). Depêchez-vous : vous avez jusqu’au 15 juillet.

L’idée de lancer un jeu concours est assez amusante et à mon avis c’est sympa d’essayer de créer un "buzz" autour d’un sujet aussi austère que la préservation des documents numériques. Comme l’objectif d’un projet européen est aussi d’amener à une prise de conscience (to raise awareness comme ils disent), je pense que ce genre d’initiatives ne peut qu’aider grandement.

Un seul regret : tous les scénarios sont orientés sur la récupération de fichiers plus ou moins bizarres, vieux ou corrompus. Moi qui suis focalisée sur les approches métier et l’aspect plutôt organisationnel de la chose, j’aurais aimé qu’on me propose un scénario moins geek, plutôt orienté sur les stratégies d’évaluation et la gestion des risques. En bref, un scénario qui montrerait que la préservation du numérique, cela peut être (c’est souvent) d’agir avant que les dégradations se produisent, et pas quand il est trop tard.

Si vous êtes dans le même cas que moi, vous pouvez vous consoler en candidatant pour une bourse de stage dans le cadre du programme d’échanges proposé par le même programme.

ELAG 2007 : « workshops »

Voici la suite du début.

A ELAG, les workshops se déroulent en parallèle, en plusieurs sessions sur plusieurs jours. On s’inscrit à un workshop et un seul, que l’on suit de bout en bout ; heureusement pour notre curiosité, tous les workshops font l’objet d’un rapport de 15 mn environ le dernier jour.

Universitat de Barcelona

Conformément au thème de la conférence (je le rapelle : library 2.0), la plupart des workshop avaient un thème très "2.0".
Ainsi, les discussions ont porté sur Amazon et Google, le eLearning en bibliothèque, la fourniture de documents, le tagging, les blogs et les wikis, etc. Tous ces workshops ont été présentés et discutés en même temps. L’idée générale était de les utiliser comme des boîtes à idées pour discuter toutes ces fonctions et émettre des recommandations plus ou moins symboliques suivant les groupes. J’ai noté quelques ressources intéressantes comme le service Books to Books qui permet aux bibliothèques de mettre facilement en place un service de numérisation à la demande.
Finalement, le plus intéressant (d’après les compte-rendus) était le workshop-titre : Library 2.0, what’s in a name dont le produit (car chaque workshop débouche sur un "outcome") était un blog, créé avant la conférence et alimenté durant les sessions de travail.
C’était amusant de voir ces bibliothécaires (d’un certain âge, il faut bien le reconnaître) s’émerveiller devant les pratiques des étudiants qui bloguent et fréquentent Second Life.

Trois workshops étaient un peu "hors sujet" : l’un tournait autour du prototype de Système de Gestion de Bibliothèque Numérique de DELOS, et un autre posait la question "pour ou contre" les logiciels open source (avec un seul participant du côté des détracteur des logiciels libres !).
Enfin je co-organisais le troisième, sur la préservation des contenus numériques. Ce workshop a été organisé en trois parties :

  • la présentation détaillée de la méthodologie DRAMBORA de gestion des risques par Seamus Ross
  • une réflexion autour du modèle OAIS et de son implémentation, par votre serviteuse
  • et enfin une discussion ouverte sur les stratégies de préservation, animée par une collègue de la KB (bibliothèque royale des Pays Bas).

Du point de vue de la préservation numérique, j’en retiendrai que l’état d’avancement des institutions, au niveau européen, est inégal. Certains sont encore bloqués sur la problématique du stockage, à savoir comment gérer dans le temps plusieurs tera octets de données. Certains n’avaient encore jamais, ou presque, entendu parler du modèle OAIS. D’autres étaient vraiment en avance, à la fois sur la réflexion et sur la mise en oeuvre. Une des idées intéressantes qui en sont sorties serait de créer un "OAIS lite" qui permette un premier accès plus facile aux concepts de la norme (l’idée venait de cet article).

Sur l’ensemble des workshops, c’est un exercice intéressant malgré son côté assez aléatoire (cela dépend vraiment sur qui on tombe, à la fois du côté de l’animateur et de celui des participants). Mais même si chaque workshop dure environ 6h en tout, les sessions sont tellement découpées qu’il est difficile d’aborder des sujets très diversifiés. J’ai été surprise de voir à quel point le temps passait vite.

D’une façon générale, ELAG est un bon endroit où prendre la température de ce qui se passe aujourd’hui dans les bibliothèques en Europe, où en est notre réflexion sur les technologies. C’est assez consensuel, on n’a pas l’impression d’avoir découvert des choses très innovantes ou lancé de grandes idées. C’est plutôt un moment de mise en commun, avec toute la richesse que cela peut impliquer.

Ainsi se termina ELAG, sur une note d’ouverture puisque l’organisation de la conférence devrait évoluer l’année prochaine : les « progress reports » seront remplacés par quelque chose de plus mystérieux nommé « lightening talks », et certains workshops seront remplacés par des tutoriels.

Certifié conforme

Trois nouveaux outils sont aujourd’hui disponibles pour évaluer la conformité d’un "entrepôt", "archive", enfin un de ces machins où on conserve les documents numériques sur le long terme, avec l’essentielle norme OAIS (expliquée de manière accessible ici).

Voici TRAC : fruit d’un travail de RLG (Research Liraries Group) et du CRL (Center for Research Libraries), le Trustworthy Repositories Audit & certification (TRAC): Criteria and Checklist est une liste de critères à passer en revue pour s’assurer qu’on mérite le titre d’entrepôt de confiance.

DRAMBORA lui est carrément une "boîte à outils" pour faire l’audit d’un tel entrepôt. Ladite boîte nécessite un enregistrement pour être téléchargée, et comporte un document rédigé, et un "template" pour l’audit sous forme de fichier Word ou Exel. La méthodologie est celle de la gestion des risques, et c’est le Digital Curation Center et le projet européen DPE qui en sont à l’origine.

Enfin, le réseau allemand NESTOR a publié un catalogue de critères qu’on peut passer en revue pour vérifier sa capacité à préserver les documents numériques de manière fiable.

Dans ces trois méthodes, on va retrouver plus ou moins les mêmes éléments :

  • l’organisationnel, c’est-à-dire vérifier qu’on la bonne gestion, l’organisation, les compétences, la viabilité financière pour accomplir cette tâche, et qu’on garantit la transparence qui permet d’établir la confiance
  • la gestion des objects numériques : vérifier qu’on se donne les moyens d’avoir des objets préservables dans le temps et de collecter toutes les informations (aussi appelées métadonnées) nécessaires pour leur préservation, la maintenance des accès et des performances, et la surveillance de l’environnement technologique par la veille
  • l’infrastructure et la sécurité, bref les moyens techniques de la conservation.

Allez, c’est une occasion rêvée, merveilleuse, et attendue de clamer haut et fort, en gras, en majuscules, et souligné : stocker ce n’est pas archiver ! Il ne suffit pas d’avoir de gros serveurs pour préserver des documents numériques.

Préservation numérique « pour les nuls »

La préservation des documents numériques est aujourd’hui l’affaire de chacun : en témoigne le site Save my memories de sensibilisation très "grand public" au problème. Son objectif est d’aider les particuliers à comprendre cette problématique et à sauvegarder notamment leur photos de famille pour les générations futures…

C’est quand même assez poussé, on y trouve des conseils pour bien classer ses photos et faire des sauvegardes, mais aussi des comparaisons de supports, des indications sur l’obsolescence logicielle et technologique, et même des consignes pour restaurer son patrimoine en cas de désastre.

En plus, ça ne gâche rien, le site est joli mais sobre, pédagogique mais pas donneur de leçons.

Comme quoi, on peut faire de la vulgarisation même sur ce genre de sujets arides. Et il faut le faire, sinon bientôt les particuliers anglosaxons seront plus au fait de ces problèmes que certaines de nos institutions.

Vu sur Digitization 101.

Lectures

Quelques petites choses à lire ces prochains jours…

Sur les identifiants pérennes, ce rapport fait le tour des systèmes existants et propose un certain nombre de conseils d’implémentation. Il est publié par la CERL et l’European Commission on Preservation and access, en creative commons ;-)

Un article dans Dlib sur les audits de systèmes d’archivage et la certification. Un sujet qui m’avait passionnée à IPRES. Il y a quelques autres références sur le même sujet dans le dernier DPC/PADI What’s new in digital preservation.

Plusieurs documents publiés en Grande-Bretagne et autour de la British Library, sur le thème des droits de propriété intellectuelle.

Tutoriel sur la conservation numérique

Aaaaah… Cornell. Ses chutes, ses belles pelouses… et ses tutoriels traduits en fançais !

Cornell Campus

Je connaissais déjà celui sur la numérisation, en voici un autre sur la préservation du numérique. Le premier était vraiment très bien, le deuxième je ne l’ai pas encore lu mais on en dit le plus grand bien. Vous pouvez voir par exemple la critique élogieuse de Jill.