Ceci est un blog sérieux

A tous les gens qui seraient susceptibles de débarquer ici pour la première fois, suite à un événement impromptu survenu dans ma vraie vie, je voudrais dire que ce blog a beau être rose fluo (j’ai essayé de changer, mais franchement vous seriez déçus) c’est quand même un blog vachement sérieux.

Il y est question de sujets aussi graves que les rapports de la commission européenne sur les droits d’auteurs qui impactent la numérisation, la construction de la bibliothèque numérique du monde, et la préservation des données numériques.

Y sont évoquées des tas de technologies compliquées comme le passage de MARC en RDF, l’impact de l’OAI sur l’interopérabilité, et les services de terminologie.

Ce blog se pose des tas de questions existentielles pour l’avenir de la bibliothéconomie numérique, telles que la modélisation conceptuelle des accès, les entrepôts du Web 2.0, et l’univers des données scientifiques du futur.

Enfin ce blog est truffé de références vers des sites originaux et pertinents, comme la Chronologie d’histoire de l’art du Metropolitan Museum of Art et le moteur BabyGo destiné aux enfants.

En plus, ce blog est vraiment sérieux car il cite ses sources : Resourceshelf et Catalogablog souvent, mais parfois aussi Open Access News et des collègues français comme Affordance. Alors, hein, si c’est pas sérieux tout ça !!! Le seul problème c’est qu’en ce moment je manque de temps pour bloguer aussi sérieusement que je le voudrais… Enfin, il reste toujours les figues ;-)

Web sémantique appliqué aux collections numériques

En ce moment, je fais un peu de veille sur les technologies du Web sémantique appliquées aux bibliothèques (en général) numériques (en particulier). Je vous propose de m’accompagner dans cette découverte, à travers quelques exemples commentés.

Le premier que j’ai choisi est cette démo qui propose de construire une interface à facettes dans des images à partir de données en RDF. On peut consulter dans ce prototype trois collections d’images, indexées avec 4 vocabulaires différents.

Les "plus" : c’est le côté facettes que j’aime toujours autant, mais aussi la possibilité de rebondir de concept en concept à l’infini. Le système est tolérant aux erreurs ("fuzzy search"). Les données permettent de générer un accès chronologique aux objets (périodes, personnes, oeuvres) en relation avec une requête. D’ailleurs c’est très performant en termes de recherche temporelle (on peut chercher des notions comme avant, après…) On peut exprimer des notions assez complexes (comme la relation plus ou moins éloignée entre deux choses). En plus, les images sont très belles ce qui ne gâche rien.

Les "moins" : l’affichage de certaines données est parfois assez cryptique pour des gens qui ne manipulent pas les technos du web sémantique… notamment tout ce qui permet d’accéder aux relations. Heureusement la FAQ donne quelques explications entre deux détails techniques !

En fait c’est un des problème avec le web sémantique : si on n’explique pas, si on ne le montre pas exprès, le fait que ce soit fabriqué avec du web sémantique ne se voit pas. Ces technologies font partie des principes d’architecture propre, interopérable et normalisée, qui sont en général cachés aux yeux des utilisateurs. Ce n’est pas de la carosserie, ça n’en jette pas, c’est pas du web 2.0 quoi… Mais le bénéfice d’avoir une architecture propre et performante, sur le long terme, est inestimable.

Vous avez dit « virtuel » ?

Non, en fait, j’ai dit numérique et pas virtuel.

La preuve : pour stocker des documents numériques, il faut de la place. Beaucoup de place. Par exemple un container.

A part ça, pour stocker des documents numériques, il faut de la puissance, beaucoup de puissance. Par exemple celle d’Amazon.

Du coup, pour stocker des documents numériques correctement et sur le long terme, il va falloir du temps, beaucoup de temps. Au moins 100 ans de réflexion.

Merci à Got et Faut le savoir, à Thierry et à 10KY blog.

Dis-moi ton format, je te dirai comment durer

Le dernier n° de RLG Diginews est quasiment entièrement consacré à la préservation du numérique.

On y trouve notamment un retour d’expérience très intéressant concernant le sauvetage des "vieilles" données numériques détenues par les chercheurs de Cornell. Le "File Format and Media Migration Pilot Service" est un service de sauvetage à la demande de données numériques, qui a tourné pendant deux ans. Les individus apportaient leurs données (sur les supports qu’ils avaient) et l’équipe se chargeait de les faire migrer.
Une des conclusions intéressantes de l’étude est que finalement, les supports (disquettes, cartouches etc.) étaient en bon état, mais ce qui manquait le plus cruellement, c’était la documentation des plateformes et des logiciels qui avaient servi à créer les données.
A noter également, plus on attend, plus c’est difficile de récupérer les données.
Enfin, une conclusion vraiment surprenante : on ne peut pas faire confiance aux individus pour archiver leurs données, il vaut mieux les déposer dans un institutional repository. Incroyable, non !

Toujours dans la même revue, et toujours en provenance de Cornell, on trouve ensuite une évaluation de 5 outils de migrations de formats et d’extraction de métadonnées :

  • le Digital Asset Preservation Tool d’IBM (open source), une sorte d’outil d’émulation
  • le LuraDocument PDF Compressor Desktop v.4 (qui génère du PDF/A)
  • le TOM (Typed Object Model) Conversion Service, un outil de migration en Java qui dispose d’une version test en ligne
  • le National Library of New Zealand (NLNZ) Metadata Extraction Tool, un outil open source en java qui analyse les formats et extrait les métadonnées
  • et enfin, un autre analyseur de format : TrID File Identifier.

L’historien, le boucher et la bibliothèque

« Bonjour, je vais prendre deux kilos de sources s’il vous plaît ! »

Ainsi l’historien de demain s’adressera-t-il à son bibliothécaire, comme si c’était son boucher, pour commander de la source qui aura été préparée spécialement pour lui dans des projets comme celui-ci ou celui-là.

Temple de Zeus

N’est-ce pas la marque d’un orgueil démesuré, que de croire que nous pouvons inventer l’histoire de demain en "créant de la source" ? Ou sommes-nous tellement désespérés par les problèmes de préservation des documents numériques que nous pensons que seuls les documents préparés exprès à cette fin arriveront jusqu’aux générations futures ?

Notre travail de passeurs consiste bien à préserver de la source pour les historiens de demain. Mais le Patrimoine, ce n’est pas une chose qu’on peut constituer de manière arbitraire ou hasardeuse. Seule la collecte ouverte, patiente, et représentative de ce tout qu’est le Web d’aujourd’hui, pourra dans le meilleur des cas servir de source aux historiens de demain.

Quand aux projets History Matters ou Time Capsule, tout ce qu’ils apprendront à ces historiens du futur, c’est que nous traversons en ce début de 21e siècle une époque obsédée par sa propre mémoire, et égarée face au passage du Temps et aux changements qu’il apporte.

Merci à Homo Numericus.

Confiture numérique

Trop tard pour structurer, je vais encore devoir tout mettre en vrac.

Je l’avais déjà signalé mais maintenant j’ai une idée de ce qu’il y a dedans : Putting content online : a practical guide for libraries, sept. 2006, par Mark Jordan de la Simon Fraser University au Canada. Plus d’infos.
Il aborde des sujets aussi intéressants que la gestion des droits, la gestion des risques, les identifiants pérennes, les métadonnées, les formats, la gestion de projet et la conservation du numérique : autant dire que je trouve cela intéressant !
Deux chapitres sont accessibles en ligne : Project management et Search and display.
Pour l’instant c’est en anglais, on peut espérer qu’ils vont le traduire en français puisque c’est des canadiens ?! Merci à Noémie pour l’info.

Quelques parutions au Digital Curation Centre :

On peut encore soumettre un poster pour leur conférence, fin novembre.

Quelques lectures concernant le projet Google print et la numérisation de masse :

Enfin, le dossier numérisation sur Bibliodoc.

La Tentation

Ce sujet a été abordé à IPRES. Et si la numérisation (et la perspective de sa conservation sur le long terme) avait un effet pervers : les décideurs pourraient penser qu’il n’est plus utile de conserver les originaux, et en profiter pour les vendre au meilleur prix afin de réinvestir dans autre chose.

La tentation de St Antoine, par Callot

Cette tentation ne paraît pas si hallucinante, quand on voit qu’à Karlsruhe des gens sont prêts à revendre les manuscrits de la bibliothèque, sans même avoir songé à les numériser d’abord !

Je trouve totalement scandaleux qu’on puisse seulement avoir l’idée de vendre ce genre de patrimoine dans une bibliothèque, quelle qu’en soit la raison (enfin, encore si c’était pour sauver des gens ou résoudre définitivement le problème de la faim dans le monde). Et il m’est tout aussi odieux de penser qu’on puisse sacrifier sur l’autel de la numérisation des originaux qui n’ont fait de mal à personne.

Quand on commence un projet de numérisation, il est essentiel de défendre dès le départ le principe d’intégrité des originaux : une intégrité qui suppose qu’on ne les détruit pas, et qu’on ne les aliène pas non plus.

Dans un environnement patrimonial, la numérisation devrait également jouer son rôle conservation préventive : la communication des originaux n’étant dès lors accordée que si elle est vraiment nécessaire (je sens que là, certains de mes lecteurs vont commencer à me détester ;-). Mais cela suppose alors de mettre au point des outils de visualisation très performants, qui vont très au-delà d’une simple copie des fonctionnalités du livre.
C’est à ça qu’on différencie(ra ?) une véritable interface de consultation de bibliothèque numérique, faite pour la lecture (et, dans le cas des manuscrits, participant au plan de conservation d’une bibliothèque patrimoniale) d’une interface de butinage dont le but est manifestement d’inciter à se procurer une version "papier" de l’original.

Tiens on dirait que ce billet m’a entraînée plus loin que je ne voulais aller au départ…

Illustration : petit clin d’oeil à Belit Seri qui comme moi apprécie cette estampe de Callot.

IPRES : Conclusion

Me voici rentrée à Paris, entière et fatiguée, et j’ai même réussi, après quelques péripéties, à récupérer mes bagages.

Beebe Lake

Je voulais faire une synthèse de la synthèse de la conférence, mais je n’ai pas trop le courage ; je vais donc me contenter assez lâchement de vous renvoyer aux excellentes conclusions de Jill sur Digitization 101.

Je vous rajouterai aussi un petit lien quand les présentations seront en ligne. Et voilà, retour à la vraie vie ;-)

Mise à jour du 01/10 : et voilà, elles sont en ligne en face des noms des intervenants dans le programme.

IPRES : préserver les revues numériques

Parmi tous les objets numériques à préserver, les revues scientifiques ont sans doute été les premières à apparaître comme à la fois menacées et importantes, et à faire l’objet d’une véritable action de préservation. Aujourd’hui on peut en voir les résultats, assez aboutis. Dans cette session, nous avons pu observer trois modèles très différents. Les intervenants étaient :

Ecureuil

1. Modèle centralisé

Ce modèle est glorieusement représenté par Portico, une organisation à but non lucratif qui émane de JSTOR.
Pour synthétiser leur façon de procéder, ils font entrer les revues (uniquement peer-reviewed) de leurs partenaires éditeurs dans une archive en vue de les préserver sur le long terme. Si un problème survient (par ex., une faillite de l’éditeur), la revue devient accessible aux bibliothèques partenaires (lire : abonnées).
D’un point de vue technique, ils travaillent sur les "masters", donc les fichiers source et non la version communiquée au public. Ils ne préservent donc que le contenu, pas l’aspect. Par ailleurs, dès que l’objet entre dans l’archive, il est immédiatement migré vers un format ouvert.
Evidemment les éditeurs payent pour ce service, et les bibliothèques aussi. Heureusement, Portico répond oui à toutes les recommandations identifiées par le CLIR dans ce rapport sur la préservation des revues électroniques.

2. Modèle décentralisé

C’est à peu près tout le contraire que fait LOCKSS : une infrastructure distribuée en open source basée sur du P2P. L’idée est que chaque bibliothèque installe une "LOCKSS box" (gratuitement et garanti moins de deux heures d’installation) et commence à harvester des revues, exacement comme elle le ferait pour de simples pages Web. Si les revues sont payantes, un accord avec l’éditeur est nécessaire, mais LOCKSS permet de gérer aussi les revues en open access.
Le principe de la collecte de pages Web, qui est utilisé, permet de conserver l’aspect ("look & feel") des revues ; aucune migration n’est prévue sauf si elle est nécessaire pour la consultation. Par contre il y a une méthode de surveillance des trains de bits.
Les boîtes LOCKSS sont ensuite reliées entre elles et répliquées de façon à avoir l’information à plusieurs endroits, et donc toujours disponible.

3. Modèle bibliothéconomique

Enfin une troisième voie : celle de la KB qui, s’étant sentie particulièrement investie de cette mission que personne d’autre ne semblait vouloir assumer, décide de créer e-Depot. Il s’agit de faire rentrer les revues, grâce à un accord avec les éditeurs, dans une archive OAIS basée sur la suite logicielle DIAS d’IBM. Cette archive n’est par ailleurs pas spécialement dédiée aux revues, elle peut manger tous types de documents numériques.

Tous 3 s’intéressent uniquement à la préservation et pas à l’accès. Ca leur permet d’évacuer temporairement les problèmes de droits ! Si un problème survient, et qu’il faut donner accès, ils envisagent que d’autres infrastructures pourront prendre le relai, notamment si la charge est importante.

IPRES : Divers

A part cela, j’ai assisté à différentes « sessions concurrentes » et à des choses qui m’ont personnellement moins intéressée (je ne dis pas que ce n’était pas intéressant en soi). De cela, je ne ferai pas de compte-rendu extensif. En tout état de cause je ne peux pas vous parler non plus des sessions concurrentes auxquelles je n’ai pas assisté, et en particulier celle sur les métadonnées (désolée Fred, j’avais donné priorité aux identifiants).

Quelques petites choses quand même à retenir au passage…

Kopal : il s’agit d’une initiative allemande dont l’objectif est de constituer un framework de préservation pouvant être déployé de façon répartie dans plusieurs archives.
Pour faire vite, il se constitue d’une partie centrale, le "Core", qui gère l’archive (les AIP) et qui repose sur le logiciel DIAS d’IBM (encore eux !) Ensuite, ils ont développé une application Open source, KOLIBRI, qui s’installe dans les différente archives et sert à constituer les SIP et les DIP qui seront versés dans le Core (cette conférence n’était pas OAIS-free ; pour ceux qui ne seraient pas familier avec les notions de SIP, AIP etc vous pouvez les retrouver ici)
Tout ceci fonctionne avec des métadonnées en METS et en LMER, un format qu’ils ont constitué à partir de l’expérience de la bibliothèque de Nouvelle Zélande.

Planets : un projet européen qui se donne pour objectif de réfléchir à un peu tous les aspects de la préservation numérique. Le projet est censé aboutir à un "testbed" qui permettra de démontrer comment on met en oeuvre un projet de préservation. J’attends de voir ça.

N2T : un résolveur d’identifiants pérennes qui se donne pour objectif de résoudre le problème de la pérennité des noms de domaine, rien que cela. Vous êtes une petite institution, vous gérez déjà vos URL (ou vos identifiants ARK, DOI, Handle ou ce que vous voulez), mais vous vous inquiétez sur un possible changement de votre nom de domaine dans les années qui viennent ? Ce projet est pour vous (non, non, je ne pense à personne en particulier ;-)
Il s’agit de rassembler un consortium d’institutions, qui vont tout simplement utiliser de façon intelligente et raisonnée les redirections HTTP pour créer un réseau de pérennisation des identifiants.
C’est une réponse organisationnelle à un problème qui est tout sauf technique : on reconnaîtra bien là les merveilleuses initiatives de mon collègue de la California Digital Library (enfin rencontré en chair et en os !!!)

MathArc : un exemple de projet thématique, piloté par Cornell, qui utilise aDORe, METS, l’OAI, les Web services, Premis, Handle, NOID et l’OAIS – rien que parce qu’il y a tous ces mots dedans, je trouve cela joli.

Vous l’aurez compris, tout cela était un peu technique ;-) Mais ça fait du bien parfois de ne pas se sentir seule face à toutes ces choses, et de se retrouver dans une pièce avec 220 personnes qui ont les mêmes préoccupations tordues que soi !