IPRES : Audit et certification

Cette session portait sur les initiatives visant à auditer les entrepôts/archives de préservation de documents numériques pour savoir s’il sont dignes de confiance (trusted ou plutôt trustworthy). Les trois interventions étaient présentées par :

Cornell Library

Les trois interventions étant fortement convergentes, il est facile de les synthétiser autour de 3 points.

1. Les buts de la démarche d’audit

A quoi bon auditer des archives, me direz-vous ? Le but le plus évident est d’obtenir une forme de certification, un "label" permettant d’établir que l’archive est digne de confiance. Mais Robin Dale nous a bien fait valoir qu’avant d’atteindre ce but, il y a d’autres intérêts à cet audit pour le fonctionnement même de l’archive, comme par exemple, disposer de critères pour différencier une véritable archive de préservation d’un "bête" Institutionnal Repository. Finalement, le but de la démarche d’audit est avant tout d’évaluer les vulnérabilités et les risques qui pèsent sur l’archive, en toute transparence, pour établir une confiance.
Pour résumer, le but n’est pas d’avoir écarté tous les risques, mais de les connaître et de les annoncer.

2. Les méthodes d’évaluation et les preuves

Le principal outil de l’audit, c’est la fameuse "checklist", une liste de critères préétablis qui vont permettre d’évaluer l’archive. Il en existe une faite par RLG, celle de NESTOR devrait paraître bientôt en version anglaise. Ces critères se veulent être des indicateurs objectifs (on a entendu plusieurs fois le terme de "metrics").
Du côté de l’archive, Seamus Ross a mis l’accent sur le besoin de disposer d’un certain nombre de preuves sur lesquelles peut reposer l’évaluation. Il y en a trois sortes :

  • la documentation : charte, spécifications, profils de postes, rapport annuel, n’importe quoi
  • les interviews du personnel, faites par l’auditeur
  • et enfin les démonstrations et observations directes.

L’évaluation repose ainsi sur la mesure de l’écart qui existe entre ce que dit la documentation, ce que pense le personnel et ce qui se passe en réalité.

3. Normalisation, modèles économiques

Le problème, c’est que faire un audit, ça coûte cher : non seulement à celui qui le fait, mais aussi à l’institution auditée. Il va donc falloir trouver un modèle économique, sachant que le système de preuves montre bien qu’une auto-évaluation ne peut être suffisante.
Il n’y a pas vraiment eu de réponse à cette question de qui va faire les audits. La checklist, une fois unifiée au plan international, pourrait être proposée à l’ISO mais cela ne résoud pas ce problème.
Il existe aussi une crainte que l’existence d’un système de certification conduise dans certains cas à exiger cette certification pour certaines actions (ex. de la loi sur le copyright qui ferait une exception de conservation uniquement pour les archives certifiées). La réponse pourrait être d’avoir plusieurs niveaux de certification, permettant d’établir des réseaux de confiance entre institutions des différents niveaux.

Encore en vadrouille

IPRES est une des grandes conférences internationales annuelles dans le domaine de la préservation du numérique. Elle a lieu cette année à Cornell University, Ithaca, les 9 et 10 octobre 2006… la semaine prochaine quoi.

C’est plus loin que Göttingen mais j’ai quand même la chance d’y aller ! Je vous ferai des comptes-rendus réguliers si j’ai le temps.

Bienvenue à Cornell

Mise à jour :

Juste avant de commencer à bloguer le contenu de la conférence, je voudrais préciser quelques points. Il n’y a rien de pire que de bloguer une conférence en balançant ses notes en ligne directement, c’est indigeste au possible. Donc comme je suis sympa je vais faire des synthèses, et un seul billet par session. J’essayerai de les faire dans l’ordre et au fur et à mesure, mais il faudra être patient. En outre je ne synthétiserai que ce qui m’a intéressé (désolée pour les autres).

Par ailleurs, les présentations sont en anglais et je synthétise en français, donc je suis désolée si je prends quelques libertés avec les contenus originaux. De la même façon je n’hésiterai pas à donner mon avis, sinon ça sert à quoi d’avoir un blog, franchement.

Pérenniser le document numérique

C’est le premier bouquin en français entièrement consacré à ce sujet :

Pérenniser le document numérique. Séminaire INRIA, 2-6 octobre 2006, Amboise. Ouvrage coordonné par Lisette Calderan, Bernard Hidoine et Jacques Millet. ADBS, 2006.

Epigraphie

Back to the future

J’en ai à peine cru mes yeux en lisant cet article dans Dlib : Repository Librarian and the Next Crusade – The Search for a Common Standard for Digital Repository Metadata. Ecrit par des gens du LANL, il défend une théorie époustouflante : MARCXML serait le meilleur format de métadonnées possible pour des entrepôts numériques…

C’est très étonnant car comme ils le disent eux mêmes :

Au début, MARC et MARCXML étaient perçus comme trop bibliocentriques et trop rigides. L’équipe était également préoccupée par la viabilité et le manque de popularité de ce format dans la communauté. (…) Le grand nombre de combinaisons d’étiquettes/indicateurs/sous-champs pouvaient suggérer que la complexité de ce standard serait problématique.

Ensuite ils mettent leur priorité sur 3 fonctionnalités du format : granularité, transparence, extensibilité. Là encore, on se sent assez loin de MARC et même de MARCXML. Mais c’est là que l’effet pervers des tableaux de comparaison de fonctionnalités fait son office et montre qu’on peut leur faire dire tout ce que l’on veut.

En comparant MARCXML à ONIX et PRISM (rapidement écartés) et également Dublin Core et MODS, en se limitant à des métadonnées descriptives et aux sujets les plus complexes, on réussit à "prouver" que MARCXML est meilleur que tous ses petits copains.

D’où la conclusion :

Utilisé dans le monde entier et supporté par de nombreux outils, MARC est omniprésent dans la communauté des bibliothèques (…)

Et d’autres vérités du même acabit. Nous voici en plein retour vers le futur : le format de métadonnées le plus prometteur pour l’avenir serait un format particulièrement vieilli, compliqué, rigide, non lisible par des humains (sauf s’ils ont suivi des cours de bibliothéconomie auquel cas on peut se demander s’ils sont vraiment toujours humains ;-) et limité à la communauté des bibliothèques. Et extensible pourvu qu’on tolère d’en arriver à ça :

 administration metadata

Cela me fait hurler… Amis spécialistes de XML, du Web sémantique et des métadonnées, je vous en prie, dîtes-moi ce que vous en pensez : serais-je déjà encore en retard (ou en avance) sur mon temps ?

Il y a un livre dans mon moteur

Maintenant que l’on sait pourquoi il ne faut pas dire moteur de recherche, je vous propose de parler plutôt des outils de consultation des bibliothèques numériques.
Quelques particularités par rapport aux moteurs classiques du Web : quelle que soit leur génération, les outils de consultation des bibliothèques numériques

  • cherchent dans des collections organisées suivant une logique raisonnée (qu’on appelle la « politique documentaire »),
  • et les choses qu’ils cherchent sont décrites de façon structurée, au moins en partie (avec des métadonnées appelées également notices).

Sans renier la recherche plein-texte, qui peut se révéler utile dans certains cas, on peut observer que dans un contexte de données fortement structurées et organisées, même les spécialistes du plein-texte font reposer leurs outils de recherche sur les métadonnées, et parfois pas que les leurs.

Pour moi un outil de consultation de bibliothèque numérique devrait se constituer de plusieurs couches qui, loin de s’opposer, se combinent. Parmi elles

  • une couche de butinage (par carte, par thème ou par facettes)
  • une couche qui exploite toute la richesse des données structurées
  • une couche de fouille au coeur du texte.

Je suis de plus en plus convaincue que tout cela peut (doit ?) être intégré dans un ensemble cohérent, assez bien exprimé par l’idée d’outil de consultation.

Google print n’offre que la dernière couche, la plus basse (mais il le fait très bien).
Je me suis déjà très longuement étendue sur la première couche qui était une de mes préoccupations essentielles jusqu’à il y a peu.
Enfin pour celle du milieu, le meilleur outil actuellement c’est à mon avis Worldcat.

Worldcat réalise très bien la synthèse entre la recherche simple et les facettes. Dès qu’on a cherché quelque chose, on se trouve devant un choix d’affinage simple, clair et utile, sous forme de liens proposés dans le menu de gauche, liens qui sont regroupés en facettes.
La principale raison pour laquelle je suis si séduite par cette interface, c’est qu’elle est fluide pour l’utilisateur et qu’elle lui épargne la saisie : l’énergie que l’on déploie à remplir les cases d’une recherche par champs. Ce que fait l’utilisateur dans Worldcat, quand il clique sur certains de ces liens, revient à une recherche par champs, mais en s’évitant une saisie fastidieuse (et risquée).
Par ailleurs, comme ces liens sont construits sur des métadonnées structurées, et non sur des analyses automatiques de type clusters, on n’a pas l’impression d’être à moitié perdu mais on garde le contrôle de sa recherche.

Et la lecture devient écriture.

L’art de la numérisation… au bout des doigts

Un nouveau bouquin vient de paraître sur la numérisation : Mark Jordan, Putting Content Online: A practical guide for libraries, Chandos Publishing, September 2006. Tout en anglais of course. Je n’ai bien entendu aucune idée de ce qu’il y a dedans, pour l’instant.

Enchaîné

Sinon, j’aime bien l’optimisme de Lorcan Dempsey : et si les "doigts" numérisés par Google avaient finalement du sens, ou du charme, c’est selon ?

C’est du joli !

On peut se demander si la visualisation ou cartographie d’informations est un gadget, ou si elle représente (ou, au moins, annonce) un changement de paradigme dans l’accès à l’information. Je ne pense pas que nous ayons encore de réponse à cette question aujourd’hui, mais il est un fait certain, c’est qu’elle n’est plus accueillie par des « pfff », mais par des « ôôôh ». C’est-à-dire qu’elle a désormais des moyens de convaincre, y compris des décideurs, qu’elle apporte quelque chose dans leur interface (ne serait-ce que parce que « ça en jette »).

Après, d’un point de vue fonctionnel (dépassons le concept "c’est joli" et posons-nous la question "est-ce utile ?"), le jour où on se retrouve avec un impératif du type "mettez-moi un peu de visualisation là-dedans", de nouvelles questions se posent telles que : où, et comment ?
Je vous propose d’aborder la question en trois temps.

Le premier temps c’est celui de la cartographie pure et dure. On va représenter notre collection sous forme d’une image, une carte, de façon à en donner une vue d’ensemble avec un accès supposé plus intuitif aux documents.
L’intérêt du procédé est que la cartographie peut être considérée comme un ensemble de conventions pour représenter de l’information, et on va utiliser ces conventions (formes, couleurs, etc.) et éventuellement les détourner pour donner une image graphique de la collection. Ainsi dans cette carte de la collection d’Amazon les couleurs font référence à des thèmes et les tailles des "continents" au nombre de documents disponibles (ce n’est écrit nulle part mais c’est assez intuitif). Ensuite on utilise un système de zoom (correspondant, dans les conventions cartographiques, à un changement d’échelle) pour "entrer" dans la collection, de plus en plus profondément, jusqu’à accéder aux pages de titres des ouvrages.
Personnellement, mon avis sur ce type de procédés cartographiques c’est qu’ils sont assez frustrants pour l’utilisateur. Bien sûr, "c’est joli" et l’utilisation des conventions de formes et de couleurs est un vrai plus au sens où cela permet de visualiser efficacement les points forts et les points faibles de la collection.
Mais l’intérêt s’arrête là. L’accès à l’information est très hiérarchique, en entonnoir. Il ne permet pas vraiment à l’utilisateur d’exploiter cette information nouvelle qu’on lui donne, pour cela il faudrait lui donner la main sur les paramètres de création de la carte et tout de suite on plonge dans des choses beaucoup plus complexes et réservées à des experts, c’est un peu ennuyeux pour une bibliothèque.
Une autre dimension consiste à utiliser l’information géographique disponible pour disposer les documents sur une vraie carte. Ici, chapeau bas et même très bas au nouveau service de flickr qui permet aux utilisateurs de géotagger hyper facilement leurs photos pour constituer des cartes d’accès vraiment impressionnantes. En plus, ils savent utiliser le pouvoir des internautes 2.0 puisque plus d’un millions de photos ont été géotaggées en moins de 24h (selon Internet Actu) !
Là il y a une vraie valeur ajoutée et cela vaudrait le coup d’étudier la mise en relation de notre indexation géographique textuelle avec des référentiels d’information géographique pour faire des liens de manière automatisée (on a du pain sur la planche).

Le deuxième temps, c’est celui des résultats de recherche. On utilise toujours des conventions de représentation graphique, mais au lieu de les appliquer à l’ensemble de la collection pour créer un nouvel accès hiérarchique ou arborescent, on les applique à une requête posée par l’utilisateur afin de lui présenter les résultats de façon plus sympathique qu’une simple liste.
Aussi loin que je me souvienne de mes cours de recherche documentaire, Kartoo a toujours existé ; aujourd’hui on trouve d’autres outils comme Grokker dont j’avais déjà parlé et qui récemment a été adopté par l’éditeur Ebsco ("visual search" étant une nouvelle option de recherche, mise au même niveau que "basic search" et "advanced search").
Comme tout est basé sur la requête de l’utilisateur, cela pallie en partie au problème que je soulevais plus haut avec les cartes. Davantage de manipulation et de souplesse : on peut dire qu’un outil comme grokker a de grandes chances de rendre l’expérience de recherche documentaire plus riche, ou au moins plus attrayante. La faiblesse du système c’est peut-être le côté parfois abscons des regroupements qui sont proposés par le moteur pour créer la carte. On navigue un peu au hasard dans ces paquets et il est difficile de dire au final ce qu’on y a vraiment gagné (à part de s’être bien amusé). Cela serait peut-être différent avec des données très structurées comme peuvent l’être les notices des catalogues.

Le troisième temps, à mon sens le plus intéressant, consiste à s’intéresser au document lui-même et à son "environnement", ou son contexte si vous préférez. Dans une collection de bibliothèque, un document n’est jamais seul : on peut toujours trouver, en utilisant les métadonnés (indexation sujet, cotes, autorités etc.) des liens ou des "rebonds" vers d’autres ouvrages probablement pertinents.
Et si on représentait ces rebonds sous forme graphique ? C’est ce que fait Omnigator pour les opéras. On peut rebondir, d’ouvrage en ouvrage, sans fin, sur les métadonnées modélisées sous forme de Topic Maps (autres exemples d’application chez Got).
On pourrait même imaginer d’aller plus loin et d’y ajouter des données de "sociabilité" : pouvoir afficher d’un seul coup d’oeil, non seulement les relations d’un document avec son environnement documentaire, mais aussi des informations sur qui l’a consulté, commenté, taggé, etc. et les autres documents choisis par ces personnes.
Là, je pense qu’on touche quelque chose de nouveau.

Redlightgreen R.I.P.

Tantôt, je vous ai parlé de Redlightgreen, l’interface "grand public" des catalogues de RLG. Maintenant que RLG et OCLC ont fusionné, Redlightgreen va fermer le 1er novembre 2006, au profit du tout neuf Worldcat, qui vient d’ouvrir au public une vraie interface (oui, sans être obligé de poser des questions abracadabrantesques à Google).

La FRBRisation, le classement par pertinence, les « facettes » pour affiner la recherche et le formattage de citation sont des fonctionnalités qui étaient développées dans les deux catalogues.

Il y a un autre truc très important, c’est que ces deux catalogues sont adressables : on peut faire un lien pérenne vers une notice. Enfin, pérenne, jusqu’au jour où le catalogue est supprimé.

Il vous reste un peu moins de deux mois pour profiter des jolies couleurs de Redlightgreen. Ensuite tout sera fondu dans l’unique bleu worldcatien.

Si cela vous énerve, vous pouvez aussi lire les récriminations de Librarian.net sur les ratés de Worldcat, et sur le "décalage" des gens d’OCLC par rapport aux réalités du terrain (là je n’ai pas grand chose à leur envier je le reconnais).

Sinon vous pouvez aussi vous énerver contre Google, un sport très prisé ces derniers temps.

Risques et terreurs du numérique

A force de nager dans la préservation du numérique, j’ai fini par outrepasser la terreur et l’accablement qu’on ressent, au tout début, quand on voit exposés les risques et obstacles innombrables qui s’élèvent entre nous et cette difficile mission. On retrouve facilement cette sensation, mais en plus grisante, lorsqu’on se met dans la peau de celui qui explique ces risques, ces obstacles.

Pour vous y replonger un peu je vous propose un nouveau blog : Digital preservation strategies. (Re)découvrez les différentes menaces et les pires problèmes qui menacent nos chers petites séries de zéros et de uns.

Après ça, si vous vous sentez encore d’attaque, je vous recommande une petite infusion de DRMs sous forme de dessins animés. Et puis dormez bien, si vous le pouvez encore !

Rions un peu (c’est l’été)

Avertissement: attention c’est du niveau blague carambar, rubrique "amuses tes amis". Merci de prendre ce post au second degré.

Ca fait des années que je m’échine à le dire : si on veut vraiment conserver des documents numériques sur le très long terme, il faut les recopier sur du parchemin. Heureuse de savoir que les archivistes allemands sont du même avis !

Des volontaires ?

With a 500-year lifespan, color microfilm is only half as good as Constantine’s parchment, but is 100 times better than CDs and DVDs. For this reason, archivists, librarians and researchers are also making use of microfilm for digital data as part of a project called ARCHE. The name references Noah’s biblical ark, because it is to preserve valuable data — instead of animal species — for posterity.

Au passage, j’aurais deux questions cruciales concernant ce mode de préservation :

  • comment peut-on savoir que ces microfilms ont une durée de vie de 500 ans ? (à moins qu’ils n’aient été inventés par Léonard de Vinci, eux aussi ;-)
  • apparemment, ils renumérisent les microfilms pour pouvoir les communiquer, vu que plus personne ne veut construire ou réparer les lecteurs de microfilms. J’aimerais savoir ce que cela représente en termes de pertes de fonctionnalités d’accès (donc de signification du document) par rapport à une saine émulation/migration.

Via Digital Curation News.