IPRES : Audit et certification

Cette session portait sur les initiatives visant à auditer les entrepôts/archives de préservation de documents numériques pour savoir s’il sont dignes de confiance (trusted ou plutôt trustworthy). Les trois interventions étaient présentées par :

Cornell Library

Les trois interventions étant fortement convergentes, il est facile de les synthétiser autour de 3 points.

1. Les buts de la démarche d’audit

A quoi bon auditer des archives, me direz-vous ? Le but le plus évident est d’obtenir une forme de certification, un "label" permettant d’établir que l’archive est digne de confiance. Mais Robin Dale nous a bien fait valoir qu’avant d’atteindre ce but, il y a d’autres intérêts à cet audit pour le fonctionnement même de l’archive, comme par exemple, disposer de critères pour différencier une véritable archive de préservation d’un "bête" Institutionnal Repository. Finalement, le but de la démarche d’audit est avant tout d’évaluer les vulnérabilités et les risques qui pèsent sur l’archive, en toute transparence, pour établir une confiance.
Pour résumer, le but n’est pas d’avoir écarté tous les risques, mais de les connaître et de les annoncer.

2. Les méthodes d’évaluation et les preuves

Le principal outil de l’audit, c’est la fameuse "checklist", une liste de critères préétablis qui vont permettre d’évaluer l’archive. Il en existe une faite par RLG, celle de NESTOR devrait paraître bientôt en version anglaise. Ces critères se veulent être des indicateurs objectifs (on a entendu plusieurs fois le terme de "metrics").
Du côté de l’archive, Seamus Ross a mis l’accent sur le besoin de disposer d’un certain nombre de preuves sur lesquelles peut reposer l’évaluation. Il y en a trois sortes :

  • la documentation : charte, spécifications, profils de postes, rapport annuel, n’importe quoi
  • les interviews du personnel, faites par l’auditeur
  • et enfin les démonstrations et observations directes.

L’évaluation repose ainsi sur la mesure de l’écart qui existe entre ce que dit la documentation, ce que pense le personnel et ce qui se passe en réalité.

3. Normalisation, modèles économiques

Le problème, c’est que faire un audit, ça coûte cher : non seulement à celui qui le fait, mais aussi à l’institution auditée. Il va donc falloir trouver un modèle économique, sachant que le système de preuves montre bien qu’une auto-évaluation ne peut être suffisante.
Il n’y a pas vraiment eu de réponse à cette question de qui va faire les audits. La checklist, une fois unifiée au plan international, pourrait être proposée à l’ISO mais cela ne résoud pas ce problème.
Il existe aussi une crainte que l’existence d’un système de certification conduise dans certains cas à exiger cette certification pour certaines actions (ex. de la loi sur le copyright qui ferait une exception de conservation uniquement pour les archives certifiées). La réponse pourrait être d’avoir plusieurs niveaux de certification, permettant d’établir des réseaux de confiance entre institutions des différents niveaux.

Encore en vadrouille

IPRES est une des grandes conférences internationales annuelles dans le domaine de la préservation du numérique. Elle a lieu cette année à Cornell University, Ithaca, les 9 et 10 octobre 2006… la semaine prochaine quoi.

C’est plus loin que Göttingen mais j’ai quand même la chance d’y aller ! Je vous ferai des comptes-rendus réguliers si j’ai le temps.

Bienvenue à Cornell

Mise à jour :

Juste avant de commencer à bloguer le contenu de la conférence, je voudrais préciser quelques points. Il n’y a rien de pire que de bloguer une conférence en balançant ses notes en ligne directement, c’est indigeste au possible. Donc comme je suis sympa je vais faire des synthèses, et un seul billet par session. J’essayerai de les faire dans l’ordre et au fur et à mesure, mais il faudra être patient. En outre je ne synthétiserai que ce qui m’a intéressé (désolée pour les autres).

Par ailleurs, les présentations sont en anglais et je synthétise en français, donc je suis désolée si je prends quelques libertés avec les contenus originaux. De la même façon je n’hésiterai pas à donner mon avis, sinon ça sert à quoi d’avoir un blog, franchement.

Pérenniser le document numérique

C’est le premier bouquin en français entièrement consacré à ce sujet :

Pérenniser le document numérique. Séminaire INRIA, 2-6 octobre 2006, Amboise. Ouvrage coordonné par Lisette Calderan, Bernard Hidoine et Jacques Millet. ADBS, 2006.

Epigraphie

L’Europe numérique (suite !)

Bon alors voilà, l’Europe numérique continue, avec la fameuse recommandation de la commission européenne aux états, qui consiste en deux injonctions majeures (je résume) :

  • numérisez et mettez en ligne !
  • conservez ce que vous avez numérisé !

C’est vrai, quoi, il fallait y penser : conserver des documents numériques ! Puisque manifestement il fallait que quelqu’un le dise pour que ce soit pris en compte, maintenant c’est fait.

Je signale aussi, via Prosper, ce numéro de revue consacré à la bibliothèque numérique européenne. J’avoue ne l’avoir pas lu.

Risques et terreurs du numérique

A force de nager dans la préservation du numérique, j’ai fini par outrepasser la terreur et l’accablement qu’on ressent, au tout début, quand on voit exposés les risques et obstacles innombrables qui s’élèvent entre nous et cette difficile mission. On retrouve facilement cette sensation, mais en plus grisante, lorsqu’on se met dans la peau de celui qui explique ces risques, ces obstacles.

Pour vous y replonger un peu je vous propose un nouveau blog : Digital preservation strategies. (Re)découvrez les différentes menaces et les pires problèmes qui menacent nos chers petites séries de zéros et de uns.

Après ça, si vous vous sentez encore d’attaque, je vous recommande une petite infusion de DRMs sous forme de dessins animés. Et puis dormez bien, si vous le pouvez encore !

Rions un peu (c’est l’été)

Avertissement: attention c’est du niveau blague carambar, rubrique "amuses tes amis". Merci de prendre ce post au second degré.

Ca fait des années que je m’échine à le dire : si on veut vraiment conserver des documents numériques sur le très long terme, il faut les recopier sur du parchemin. Heureuse de savoir que les archivistes allemands sont du même avis !

Des volontaires ?

With a 500-year lifespan, color microfilm is only half as good as Constantine’s parchment, but is 100 times better than CDs and DVDs. For this reason, archivists, librarians and researchers are also making use of microfilm for digital data as part of a project called ARCHE. The name references Noah’s biblical ark, because it is to preserve valuable data — instead of animal species — for posterity.

Au passage, j’aurais deux questions cruciales concernant ce mode de préservation :

  • comment peut-on savoir que ces microfilms ont une durée de vie de 500 ans ? (à moins qu’ils n’aient été inventés par Léonard de Vinci, eux aussi ;-)
  • apparemment, ils renumérisent les microfilms pour pouvoir les communiquer, vu que plus personne ne veut construire ou réparer les lecteurs de microfilms. J’aimerais savoir ce que cela représente en termes de pertes de fonctionnalités d’accès (donc de signification du document) par rapport à une saine émulation/migration.

Via Digital Curation News.

Point docx

Allez, il ya pas de raison, j’ai parlé de .odt, je peux bien parler de .docx.

Cette chose, c’est le nouveau format de bureautique, basé sur XML, que Microsoft est en train de faire normaliser par l’ECMA, un autre machin qui fait des normes.

Comme docx (ou Office Open XML, de son nom complet) est un format ouvert, on peut en lire les specifications sur le site de l’ECMA. Si cela vous semble un peu lourd de feuilleter 4081 pages de specs, vous pouvez butiner le blog d’un spécialiste, ou encore lire deux billets sur XML.com :

Le premier dit que ODT et DOCX sont avant tout les fondements de la liberté de choisir. Et donc qu’il faut s’investir dans l’un, ou l’autre, ou les deux, et que pour la préservation et l’interopérabilité, on verra après.

Le second quant à lui pense que même si on se prononce en faveur d’ODT pour l’interopérabilité et l’archivage, on aura sans doute intérêt à avoir un format XML pour Office, histoire de coller aux fonctionnalités des outils Microsoft.

Par exemple, en France nous aurons le Référentiel général d’interopérabilité qui recommande ODT comme format d’échange (cf. Tristan). Ca ne veut pas dire qu’on ne continuera pas à travailler en .doc (x ou pas x).

Et pour conclure, il serait vain de croire que MS cherche à tout prix à promouvoir des formats différents de ceux que tout le monde utilise pour fidéliser de force ses utilisateurs ; c’est pas comme s’ils voulaient créer un format d’image concurrent à JPEG et inclus par défaut dans leur système d’exploitation. Ah si ? Ah mince alors.

Confiture numérique et archivistique

Je manque un peu d’énergie pour entrer dans les détails, alors voici une liste de ressources à utiliser, lire, exploiter, dans les domaines de prédilection qui sont les miens habituellement.

Sur les bibliothèques numériques, lire Scan this book !, un article de Kevin Kelly, déjà signalé par Lafeuille mais je l’avais vu sur Netbib, apparemment il faut se dépêcher de le lire avant qu’il ne soit plus en accès libre.

Mon fils RSS a un Dlib de retard, aussi c’est dans celui d’avril que je vous recommanderai :

Enfin ceci dit vous pouvez aussi consulter directement le Dlib de mai.

Repéré sur DCC, un powerpoint sur les questions juridiques appliquées à la bibliothéconomie numérique.

Vu sur Catalogablog, un rapport sur l’intégrité dans les archives numériques, chez HP.

Enfin, via OAnews, petite visite sur le blog d’un archiviste qui a des choses intéressantes à dire (je l’avais d’ailleurs déjà cité) : Archivemati.ca. C’est un billet aux saveurs de Web 2.0 mais il le dit lui-même :

Although the “Web 2.0″ term probably has a limited shelf life, I expect it will at least get people’s attention as they scan a conference program.

Après il parle de plein de choses intéressantes sur l’accès aux collections d’archives numériques, notamment sur les communautés.

Bye bye Hippo

On l’a appris il y a peu, l’hippopotame fait partie depuis cette année des espèces considérées comme menacées.

Tout cynisme mis à part, je vous invite à aller visiter la bibliothèque numérique des animaux en voie de disparition : ARKive. (ARK parce qu’est c’est l’Arche de Noé des animaux en danger – Ark en anglais).
On y trouve des tas de photos (et même parfois des films) de l’hippopotame et des autres… l’ambition de ce site étant de constituer une mémoire de ces espèces pour le jour où elles auront disparu. J’espère quand même qu’ils ont songé à la préservation de leurs fichiers numériques et de leurs métadonnées parce que sinon !

Ca me fait tout drôle de penser que ce doudou-hippo est peut-être un des derniers de son espèce, d’ailleurs lui-même après 5 ans de bon et loyaux services est bien mal en point, cette photo est peut-être une des ultimes traces numériques de son âge d’or ;-)

A visiter aussi : PlanetArkive pour les enfants.

Point haut d’été

Le format Open Document, après avoir été standardisé par OASIS l’année dernière, vient d’être accepté par l’ISO sous le doux nom de 26300. A titre de rappel, il s’agit du format de traitement de texte basé sur XML utilisé notamment par la suite Open Office.

C’est un petit pas pour la bureautique mais un grand pas pour la préservation du document numérique… Euh je peux peut-être trouver un truc plus intelligent à dire, là…

La fondation Open Document annonce également qu’elle vient de terminer le développement d’un plug-in qui va bien pour que M$Word arrive à parler Open Document. Amis de Microsoft, faites comme d’habitude : rien.

En fait ils ne font pas rien puisqu’ils travaillent à un format concurrent qui s’appelle… Office OpenXML, sans blague.

Source DCC.