Bibliothécaires et archivistes, semblables mais pas mélangés

Pour entrer un peu dans le débat sur la fusion des bibliothécaires et des archivistes en un troisième corps, celui des archithécaires (célèbres pour leur encodage d’inventaires en MARCXML et leur appétit insatiable pour les baguettes de pain qu’il dégustent en grand nombre au petit déjeûner ;-) je vous propose la traduction partielle d’un billet publié par El opiniador de la profe en espagnol, un vieux post qui a presque trois ans mais a été ressuscité dans Vease ademas plus récemment.

– La bibliothéconomie et la documentation ont toutes deux pour objet un type documentaire ou type d’information que nous appellerons bibliographique : un document produit volontairement, à caractère informatif, à des fins de distribution et de communication, quel que soit son support. (…)

– l’archivistique a pour objet un type documentaire très particulier justement appelé archive : c’est un enregistrement documentaire, quel que soit son support, des actions ou des actes réalisés par des personnes physiques ou morales dans l’exercice de leurs fonctions. En conséquence, il est involontaire et unique.

(…)

Affirmer que la bibliothéconomie, la documentation et l’archivistique ne sont que des branches de spécialisation d’une même pratique et que les « professionnels de l’information » peuvent passer de l’une à l’autre sans aucun problème de compétence (…) c’est comme de dire qu’un médecin et un vétérinaire font dans les grandes lignes le même métier parce qu’ils travaillent tous deux sur des êtres vivants et qu’ils ont tous deux des cliniques où l’on s’occupe des malades.

(…)

Tous deux font des diagnostics, de la chirurgie et prescrivent des médicaments, comme nous faisons tous de la collecte, de la description et de la communication de documents. Mais la différence des types documentaires est telle que ces processus, bien que globalement similaires, se mettent en oeuvre de manière très distincte. (…)

J’aime bien cette métaphore, je la trouve très parlante et j’espère que son auteure me pardonnera cette longue citation et traduction.

L’historien, le boucher et la bibliothèque

« Bonjour, je vais prendre deux kilos de sources s’il vous plaît ! »

Ainsi l’historien de demain s’adressera-t-il à son bibliothécaire, comme si c’était son boucher, pour commander de la source qui aura été préparée spécialement pour lui dans des projets comme celui-ci ou celui-là.

Temple de Zeus

N’est-ce pas la marque d’un orgueil démesuré, que de croire que nous pouvons inventer l’histoire de demain en "créant de la source" ? Ou sommes-nous tellement désespérés par les problèmes de préservation des documents numériques que nous pensons que seuls les documents préparés exprès à cette fin arriveront jusqu’aux générations futures ?

Notre travail de passeurs consiste bien à préserver de la source pour les historiens de demain. Mais le Patrimoine, ce n’est pas une chose qu’on peut constituer de manière arbitraire ou hasardeuse. Seule la collecte ouverte, patiente, et représentative de ce tout qu’est le Web d’aujourd’hui, pourra dans le meilleur des cas servir de source aux historiens de demain.

Quand aux projets History Matters ou Time Capsule, tout ce qu’ils apprendront à ces historiens du futur, c’est que nous traversons en ce début de 21e siècle une époque obsédée par sa propre mémoire, et égarée face au passage du Temps et aux changements qu’il apporte.

Merci à Homo Numericus.

Confiture numérique

Trop tard pour structurer, je vais encore devoir tout mettre en vrac.

Je l’avais déjà signalé mais maintenant j’ai une idée de ce qu’il y a dedans : Putting content online : a practical guide for libraries, sept. 2006, par Mark Jordan de la Simon Fraser University au Canada. Plus d’infos.
Il aborde des sujets aussi intéressants que la gestion des droits, la gestion des risques, les identifiants pérennes, les métadonnées, les formats, la gestion de projet et la conservation du numérique : autant dire que je trouve cela intéressant !
Deux chapitres sont accessibles en ligne : Project management et Search and display.
Pour l’instant c’est en anglais, on peut espérer qu’ils vont le traduire en français puisque c’est des canadiens ?! Merci à Noémie pour l’info.

Quelques parutions au Digital Curation Centre :

On peut encore soumettre un poster pour leur conférence, fin novembre.

Quelques lectures concernant le projet Google print et la numérisation de masse :

Enfin, le dossier numérisation sur Bibliodoc.

La Tentation

Ce sujet a été abordé à IPRES. Et si la numérisation (et la perspective de sa conservation sur le long terme) avait un effet pervers : les décideurs pourraient penser qu’il n’est plus utile de conserver les originaux, et en profiter pour les vendre au meilleur prix afin de réinvestir dans autre chose.

La tentation de St Antoine, par Callot

Cette tentation ne paraît pas si hallucinante, quand on voit qu’à Karlsruhe des gens sont prêts à revendre les manuscrits de la bibliothèque, sans même avoir songé à les numériser d’abord !

Je trouve totalement scandaleux qu’on puisse seulement avoir l’idée de vendre ce genre de patrimoine dans une bibliothèque, quelle qu’en soit la raison (enfin, encore si c’était pour sauver des gens ou résoudre définitivement le problème de la faim dans le monde). Et il m’est tout aussi odieux de penser qu’on puisse sacrifier sur l’autel de la numérisation des originaux qui n’ont fait de mal à personne.

Quand on commence un projet de numérisation, il est essentiel de défendre dès le départ le principe d’intégrité des originaux : une intégrité qui suppose qu’on ne les détruit pas, et qu’on ne les aliène pas non plus.

Dans un environnement patrimonial, la numérisation devrait également jouer son rôle conservation préventive : la communication des originaux n’étant dès lors accordée que si elle est vraiment nécessaire (je sens que là, certains de mes lecteurs vont commencer à me détester ;-). Mais cela suppose alors de mettre au point des outils de visualisation très performants, qui vont très au-delà d’une simple copie des fonctionnalités du livre.
C’est à ça qu’on différencie(ra ?) une véritable interface de consultation de bibliothèque numérique, faite pour la lecture (et, dans le cas des manuscrits, participant au plan de conservation d’une bibliothèque patrimoniale) d’une interface de butinage dont le but est manifestement d’inciter à se procurer une version "papier" de l’original.

Tiens on dirait que ce billet m’a entraînée plus loin que je ne voulais aller au départ…

Illustration : petit clin d’oeil à Belit Seri qui comme moi apprécie cette estampe de Callot.

IPRES : Conclusion

Me voici rentrée à Paris, entière et fatiguée, et j’ai même réussi, après quelques péripéties, à récupérer mes bagages.

Beebe Lake

Je voulais faire une synthèse de la synthèse de la conférence, mais je n’ai pas trop le courage ; je vais donc me contenter assez lâchement de vous renvoyer aux excellentes conclusions de Jill sur Digitization 101.

Je vous rajouterai aussi un petit lien quand les présentations seront en ligne. Et voilà, retour à la vraie vie ;-)

Mise à jour du 01/10 : et voilà, elles sont en ligne en face des noms des intervenants dans le programme.

IPRES : préserver les revues numériques

Parmi tous les objets numériques à préserver, les revues scientifiques ont sans doute été les premières à apparaître comme à la fois menacées et importantes, et à faire l’objet d’une véritable action de préservation. Aujourd’hui on peut en voir les résultats, assez aboutis. Dans cette session, nous avons pu observer trois modèles très différents. Les intervenants étaient :

Ecureuil

1. Modèle centralisé

Ce modèle est glorieusement représenté par Portico, une organisation à but non lucratif qui émane de JSTOR.
Pour synthétiser leur façon de procéder, ils font entrer les revues (uniquement peer-reviewed) de leurs partenaires éditeurs dans une archive en vue de les préserver sur le long terme. Si un problème survient (par ex., une faillite de l’éditeur), la revue devient accessible aux bibliothèques partenaires (lire : abonnées).
D’un point de vue technique, ils travaillent sur les "masters", donc les fichiers source et non la version communiquée au public. Ils ne préservent donc que le contenu, pas l’aspect. Par ailleurs, dès que l’objet entre dans l’archive, il est immédiatement migré vers un format ouvert.
Evidemment les éditeurs payent pour ce service, et les bibliothèques aussi. Heureusement, Portico répond oui à toutes les recommandations identifiées par le CLIR dans ce rapport sur la préservation des revues électroniques.

2. Modèle décentralisé

C’est à peu près tout le contraire que fait LOCKSS : une infrastructure distribuée en open source basée sur du P2P. L’idée est que chaque bibliothèque installe une "LOCKSS box" (gratuitement et garanti moins de deux heures d’installation) et commence à harvester des revues, exacement comme elle le ferait pour de simples pages Web. Si les revues sont payantes, un accord avec l’éditeur est nécessaire, mais LOCKSS permet de gérer aussi les revues en open access.
Le principe de la collecte de pages Web, qui est utilisé, permet de conserver l’aspect ("look & feel") des revues ; aucune migration n’est prévue sauf si elle est nécessaire pour la consultation. Par contre il y a une méthode de surveillance des trains de bits.
Les boîtes LOCKSS sont ensuite reliées entre elles et répliquées de façon à avoir l’information à plusieurs endroits, et donc toujours disponible.

3. Modèle bibliothéconomique

Enfin une troisième voie : celle de la KB qui, s’étant sentie particulièrement investie de cette mission que personne d’autre ne semblait vouloir assumer, décide de créer e-Depot. Il s’agit de faire rentrer les revues, grâce à un accord avec les éditeurs, dans une archive OAIS basée sur la suite logicielle DIAS d’IBM. Cette archive n’est par ailleurs pas spécialement dédiée aux revues, elle peut manger tous types de documents numériques.

Tous 3 s’intéressent uniquement à la préservation et pas à l’accès. Ca leur permet d’évacuer temporairement les problèmes de droits ! Si un problème survient, et qu’il faut donner accès, ils envisagent que d’autres infrastructures pourront prendre le relai, notamment si la charge est importante.

IPRES : Divers

A part cela, j’ai assisté à différentes « sessions concurrentes » et à des choses qui m’ont personnellement moins intéressée (je ne dis pas que ce n’était pas intéressant en soi). De cela, je ne ferai pas de compte-rendu extensif. En tout état de cause je ne peux pas vous parler non plus des sessions concurrentes auxquelles je n’ai pas assisté, et en particulier celle sur les métadonnées (désolée Fred, j’avais donné priorité aux identifiants).

Quelques petites choses quand même à retenir au passage…

Kopal : il s’agit d’une initiative allemande dont l’objectif est de constituer un framework de préservation pouvant être déployé de façon répartie dans plusieurs archives.
Pour faire vite, il se constitue d’une partie centrale, le "Core", qui gère l’archive (les AIP) et qui repose sur le logiciel DIAS d’IBM (encore eux !) Ensuite, ils ont développé une application Open source, KOLIBRI, qui s’installe dans les différente archives et sert à constituer les SIP et les DIP qui seront versés dans le Core (cette conférence n’était pas OAIS-free ; pour ceux qui ne seraient pas familier avec les notions de SIP, AIP etc vous pouvez les retrouver ici)
Tout ceci fonctionne avec des métadonnées en METS et en LMER, un format qu’ils ont constitué à partir de l’expérience de la bibliothèque de Nouvelle Zélande.

Planets : un projet européen qui se donne pour objectif de réfléchir à un peu tous les aspects de la préservation numérique. Le projet est censé aboutir à un "testbed" qui permettra de démontrer comment on met en oeuvre un projet de préservation. J’attends de voir ça.

N2T : un résolveur d’identifiants pérennes qui se donne pour objectif de résoudre le problème de la pérennité des noms de domaine, rien que cela. Vous êtes une petite institution, vous gérez déjà vos URL (ou vos identifiants ARK, DOI, Handle ou ce que vous voulez), mais vous vous inquiétez sur un possible changement de votre nom de domaine dans les années qui viennent ? Ce projet est pour vous (non, non, je ne pense à personne en particulier ;-)
Il s’agit de rassembler un consortium d’institutions, qui vont tout simplement utiliser de façon intelligente et raisonnée les redirections HTTP pour créer un réseau de pérennisation des identifiants.
C’est une réponse organisationnelle à un problème qui est tout sauf technique : on reconnaîtra bien là les merveilleuses initiatives de mon collègue de la California Digital Library (enfin rencontré en chair et en os !!!)

MathArc : un exemple de projet thématique, piloté par Cornell, qui utilise aDORe, METS, l’OAI, les Web services, Premis, Handle, NOID et l’OAIS – rien que parce qu’il y a tous ces mots dedans, je trouve cela joli.

Vous l’aurez compris, tout cela était un peu technique ;-) Mais ça fait du bien parfois de ne pas se sentir seule face à toutes ces choses, et de se retrouver dans une pièce avec 220 personnes qui ont les mêmes préoccupations tordues que soi !

IPRES : Nos amis archithécaires canadiens

La conférence d’ouverture (keynote) nous a été brillamment administrée par le directeur de la Bibliothèque nationale et Archives du Canada, Ian E. Wilson. Il a eu l’occasion de nous parler, entre autres choses, de cette fusion bizarre entre deux métiers, un sujet assez à l’honneur dans la bibliothécomie française de nos jours.

Campus de Cornell

Cette convergence des métiers au Canada est le fruit d’un constat : après s’être passablement étripés pour savoir qui conserverait quoi, ils ont semble-t-il réalisé que cela n’avait aucun sens, en particulier aux yeux du public, et que dans le monde numérique, eux-mêmes commençaient à avoir du mal à expliquer la différence entre les bibliothécaires, les archivistes, et autres. Tout cela a l’air simple dit comme cela, mais je ne suis pas sûre que cela l’ait vraiment été dans les faits.

Il y avait beaucoup d’autres richesses dans cette keynote, pour ma part j’en ai retenu 3 :

  • Le renoncement. Si on place le numérique au coeur de cette nouvelle institution, on ne peut se contenter de multiplier à l’infini les activités : il convient de réfléchir à ce que l’on va arrêter de faire. Un moment difficile.
  • L’engagement. En mettant des ressources en ligne, en créant des services, nous créons aussi d’énormes coûts de maintenance pour l’avenir, sur lesquels il sera probablement impossible de revenir en arrière. En sommes-nous bien conscients ? Serons-nous capables de l’assumer ?
  • L’éthique professionnelle. Suite à une rencontre des bibliothèques francophones, il la définit en 5 points : un accès public et gratuit aux données – des partenariats non-exclusifs avec le privé – la prise en compte de la préservation à long terme – la non-altération des originaux – l’accès multilingue.

Sinon, cette intervention nous a aussi offert la blague du jour, sur les archivistes : savez-vous pourquoi un mariage entre deux archivistes a toutes les chances de réussir ? Parce que plus ils vieillissent, plus leur intérêt l’un pour l’autre augmente ;-)

IPRES : Audit et certification

Cette session portait sur les initiatives visant à auditer les entrepôts/archives de préservation de documents numériques pour savoir s’il sont dignes de confiance (trusted ou plutôt trustworthy). Les trois interventions étaient présentées par :

Cornell Library

Les trois interventions étant fortement convergentes, il est facile de les synthétiser autour de 3 points.

1. Les buts de la démarche d’audit

A quoi bon auditer des archives, me direz-vous ? Le but le plus évident est d’obtenir une forme de certification, un "label" permettant d’établir que l’archive est digne de confiance. Mais Robin Dale nous a bien fait valoir qu’avant d’atteindre ce but, il y a d’autres intérêts à cet audit pour le fonctionnement même de l’archive, comme par exemple, disposer de critères pour différencier une véritable archive de préservation d’un "bête" Institutionnal Repository. Finalement, le but de la démarche d’audit est avant tout d’évaluer les vulnérabilités et les risques qui pèsent sur l’archive, en toute transparence, pour établir une confiance.
Pour résumer, le but n’est pas d’avoir écarté tous les risques, mais de les connaître et de les annoncer.

2. Les méthodes d’évaluation et les preuves

Le principal outil de l’audit, c’est la fameuse "checklist", une liste de critères préétablis qui vont permettre d’évaluer l’archive. Il en existe une faite par RLG, celle de NESTOR devrait paraître bientôt en version anglaise. Ces critères se veulent être des indicateurs objectifs (on a entendu plusieurs fois le terme de "metrics").
Du côté de l’archive, Seamus Ross a mis l’accent sur le besoin de disposer d’un certain nombre de preuves sur lesquelles peut reposer l’évaluation. Il y en a trois sortes :

  • la documentation : charte, spécifications, profils de postes, rapport annuel, n’importe quoi
  • les interviews du personnel, faites par l’auditeur
  • et enfin les démonstrations et observations directes.

L’évaluation repose ainsi sur la mesure de l’écart qui existe entre ce que dit la documentation, ce que pense le personnel et ce qui se passe en réalité.

3. Normalisation, modèles économiques

Le problème, c’est que faire un audit, ça coûte cher : non seulement à celui qui le fait, mais aussi à l’institution auditée. Il va donc falloir trouver un modèle économique, sachant que le système de preuves montre bien qu’une auto-évaluation ne peut être suffisante.
Il n’y a pas vraiment eu de réponse à cette question de qui va faire les audits. La checklist, une fois unifiée au plan international, pourrait être proposée à l’ISO mais cela ne résoud pas ce problème.
Il existe aussi une crainte que l’existence d’un système de certification conduise dans certains cas à exiger cette certification pour certaines actions (ex. de la loi sur le copyright qui ferait une exception de conservation uniquement pour les archives certifiées). La réponse pourrait être d’avoir plusieurs niveaux de certification, permettant d’établir des réseaux de confiance entre institutions des différents niveaux.