Indexer une bibliothèque numérique

Dans la suite de ma réflexion sur les outils de consultation de bibliothèque numérique, je me suis intéressée au problème du calcul de pertinence lorsqu’on veut interroger en même temps des données structurées (par exemple, des notices de catalogue) et du plein-texte.

C’est (encore) à la California Digital Library que j’ai trouvé la solution à mes problèmes, et en particulier dans le Melvyl recommender project.

Ce projet avait dans un premier temps pour objectif de montrer qu’on pouvait indexer des données structurées avec un outil de type "plein texte" (par opposition à une base de données). Pour cela, ils ont réuni quelques millions de notices, et les ont indexées grâce à XFT, un framework open source basé sur Lucene. Ca a donné un prototype assez intéressant, en particulier du point de vue de la FRBRisation des notices.

Dans une seconde phase, ils se sont demandé ce qui se passerait si à ces belles métadonnées ils ajoutaient de grosses quantités de plein texte dans des formats et des niveaux de qualité hétérogène. Ils ont donc injecté, en plus des notices, 18000 documents plein texte incluant des PDF, de l’OCR « brut » (non corrigé) et de la TEI (entre autres) et ont recommencé le petit jeu.

Le résultat de leurs cogitations, et les solutions pour faire une indexation réussie de matériel hétérogène et réparti dans une bibliothèque numérique, figure dans le rapport de la 2e phase. Le plus intéressant à mon sens est

  • la mise en place de la FRBRisation à la volée (ça fait classe de dire FRBRisation, mais en fait c’est une sorte de dédoublonnage amélioré)
  • le paramétrage de Lucene pour que l’algorithme de pertinence prenne en compte la qualité des métadonnées et évite « d’écraser » sous des tonnes de plein texte des résultats qui auraient une occurrence pertinente dans le titre ou l’auteur.

Ca peut paraître technique, mais il me semble difficile de croire qu’on va pouvoir numériser à tour de bras et OCRiser à tour de bras, sans se demander comment on va faire pour trouver quelque chose là-dedans à la fin. Même si on a l’intention d’utiliser un moteur du marché comme Fast, à l’exemple des allemands de Bielefield. Sinon il faudra s’en remettre à eux ;-)

Merci, mais alors merci, à FRBR blog qui n’imagine pas à quel point il m’a rendu service avec ce billet.

Bibliothécaires et archivistes, semblables mais pas mélangés

Pour entrer un peu dans le débat sur la fusion des bibliothécaires et des archivistes en un troisième corps, celui des archithécaires (célèbres pour leur encodage d’inventaires en MARCXML et leur appétit insatiable pour les baguettes de pain qu’il dégustent en grand nombre au petit déjeûner ;-) je vous propose la traduction partielle d’un billet publié par El opiniador de la profe en espagnol, un vieux post qui a presque trois ans mais a été ressuscité dans Vease ademas plus récemment.

– La bibliothéconomie et la documentation ont toutes deux pour objet un type documentaire ou type d’information que nous appellerons bibliographique : un document produit volontairement, à caractère informatif, à des fins de distribution et de communication, quel que soit son support. (…)

– l’archivistique a pour objet un type documentaire très particulier justement appelé archive : c’est un enregistrement documentaire, quel que soit son support, des actions ou des actes réalisés par des personnes physiques ou morales dans l’exercice de leurs fonctions. En conséquence, il est involontaire et unique.

(…)

Affirmer que la bibliothéconomie, la documentation et l’archivistique ne sont que des branches de spécialisation d’une même pratique et que les « professionnels de l’information » peuvent passer de l’une à l’autre sans aucun problème de compétence (…) c’est comme de dire qu’un médecin et un vétérinaire font dans les grandes lignes le même métier parce qu’ils travaillent tous deux sur des êtres vivants et qu’ils ont tous deux des cliniques où l’on s’occupe des malades.

(…)

Tous deux font des diagnostics, de la chirurgie et prescrivent des médicaments, comme nous faisons tous de la collecte, de la description et de la communication de documents. Mais la différence des types documentaires est telle que ces processus, bien que globalement similaires, se mettent en oeuvre de manière très distincte. (…)

J’aime bien cette métaphore, je la trouve très parlante et j’espère que son auteure me pardonnera cette longue citation et traduction.

L’historien, le boucher et la bibliothèque

« Bonjour, je vais prendre deux kilos de sources s’il vous plaît ! »

Ainsi l’historien de demain s’adressera-t-il à son bibliothécaire, comme si c’était son boucher, pour commander de la source qui aura été préparée spécialement pour lui dans des projets comme celui-ci ou celui-là.

Temple de Zeus

N’est-ce pas la marque d’un orgueil démesuré, que de croire que nous pouvons inventer l’histoire de demain en "créant de la source" ? Ou sommes-nous tellement désespérés par les problèmes de préservation des documents numériques que nous pensons que seuls les documents préparés exprès à cette fin arriveront jusqu’aux générations futures ?

Notre travail de passeurs consiste bien à préserver de la source pour les historiens de demain. Mais le Patrimoine, ce n’est pas une chose qu’on peut constituer de manière arbitraire ou hasardeuse. Seule la collecte ouverte, patiente, et représentative de ce tout qu’est le Web d’aujourd’hui, pourra dans le meilleur des cas servir de source aux historiens de demain.

Quand aux projets History Matters ou Time Capsule, tout ce qu’ils apprendront à ces historiens du futur, c’est que nous traversons en ce début de 21e siècle une époque obsédée par sa propre mémoire, et égarée face au passage du Temps et aux changements qu’il apporte.

Merci à Homo Numericus.

Confiture numérique

Trop tard pour structurer, je vais encore devoir tout mettre en vrac.

Je l’avais déjà signalé mais maintenant j’ai une idée de ce qu’il y a dedans : Putting content online : a practical guide for libraries, sept. 2006, par Mark Jordan de la Simon Fraser University au Canada. Plus d’infos.
Il aborde des sujets aussi intéressants que la gestion des droits, la gestion des risques, les identifiants pérennes, les métadonnées, les formats, la gestion de projet et la conservation du numérique : autant dire que je trouve cela intéressant !
Deux chapitres sont accessibles en ligne : Project management et Search and display.
Pour l’instant c’est en anglais, on peut espérer qu’ils vont le traduire en français puisque c’est des canadiens ?! Merci à Noémie pour l’info.

Quelques parutions au Digital Curation Centre :

On peut encore soumettre un poster pour leur conférence, fin novembre.

Quelques lectures concernant le projet Google print et la numérisation de masse :

Enfin, le dossier numérisation sur Bibliodoc.

La Tentation

Ce sujet a été abordé à IPRES. Et si la numérisation (et la perspective de sa conservation sur le long terme) avait un effet pervers : les décideurs pourraient penser qu’il n’est plus utile de conserver les originaux, et en profiter pour les vendre au meilleur prix afin de réinvestir dans autre chose.

La tentation de St Antoine, par Callot

Cette tentation ne paraît pas si hallucinante, quand on voit qu’à Karlsruhe des gens sont prêts à revendre les manuscrits de la bibliothèque, sans même avoir songé à les numériser d’abord !

Je trouve totalement scandaleux qu’on puisse seulement avoir l’idée de vendre ce genre de patrimoine dans une bibliothèque, quelle qu’en soit la raison (enfin, encore si c’était pour sauver des gens ou résoudre définitivement le problème de la faim dans le monde). Et il m’est tout aussi odieux de penser qu’on puisse sacrifier sur l’autel de la numérisation des originaux qui n’ont fait de mal à personne.

Quand on commence un projet de numérisation, il est essentiel de défendre dès le départ le principe d’intégrité des originaux : une intégrité qui suppose qu’on ne les détruit pas, et qu’on ne les aliène pas non plus.

Dans un environnement patrimonial, la numérisation devrait également jouer son rôle conservation préventive : la communication des originaux n’étant dès lors accordée que si elle est vraiment nécessaire (je sens que là, certains de mes lecteurs vont commencer à me détester ;-). Mais cela suppose alors de mettre au point des outils de visualisation très performants, qui vont très au-delà d’une simple copie des fonctionnalités du livre.
C’est à ça qu’on différencie(ra ?) une véritable interface de consultation de bibliothèque numérique, faite pour la lecture (et, dans le cas des manuscrits, participant au plan de conservation d’une bibliothèque patrimoniale) d’une interface de butinage dont le but est manifestement d’inciter à se procurer une version "papier" de l’original.

Tiens on dirait que ce billet m’a entraînée plus loin que je ne voulais aller au départ…

Illustration : petit clin d’oeil à Belit Seri qui comme moi apprécie cette estampe de Callot.

IPRES : Conclusion

Me voici rentrée à Paris, entière et fatiguée, et j’ai même réussi, après quelques péripéties, à récupérer mes bagages.

Beebe Lake

Je voulais faire une synthèse de la synthèse de la conférence, mais je n’ai pas trop le courage ; je vais donc me contenter assez lâchement de vous renvoyer aux excellentes conclusions de Jill sur Digitization 101.

Je vous rajouterai aussi un petit lien quand les présentations seront en ligne. Et voilà, retour à la vraie vie ;-)

Mise à jour du 01/10 : et voilà, elles sont en ligne en face des noms des intervenants dans le programme.

IPRES : préserver les revues numériques

Parmi tous les objets numériques à préserver, les revues scientifiques ont sans doute été les premières à apparaître comme à la fois menacées et importantes, et à faire l’objet d’une véritable action de préservation. Aujourd’hui on peut en voir les résultats, assez aboutis. Dans cette session, nous avons pu observer trois modèles très différents. Les intervenants étaient :

Ecureuil

1. Modèle centralisé

Ce modèle est glorieusement représenté par Portico, une organisation à but non lucratif qui émane de JSTOR.
Pour synthétiser leur façon de procéder, ils font entrer les revues (uniquement peer-reviewed) de leurs partenaires éditeurs dans une archive en vue de les préserver sur le long terme. Si un problème survient (par ex., une faillite de l’éditeur), la revue devient accessible aux bibliothèques partenaires (lire : abonnées).
D’un point de vue technique, ils travaillent sur les "masters", donc les fichiers source et non la version communiquée au public. Ils ne préservent donc que le contenu, pas l’aspect. Par ailleurs, dès que l’objet entre dans l’archive, il est immédiatement migré vers un format ouvert.
Evidemment les éditeurs payent pour ce service, et les bibliothèques aussi. Heureusement, Portico répond oui à toutes les recommandations identifiées par le CLIR dans ce rapport sur la préservation des revues électroniques.

2. Modèle décentralisé

C’est à peu près tout le contraire que fait LOCKSS : une infrastructure distribuée en open source basée sur du P2P. L’idée est que chaque bibliothèque installe une "LOCKSS box" (gratuitement et garanti moins de deux heures d’installation) et commence à harvester des revues, exacement comme elle le ferait pour de simples pages Web. Si les revues sont payantes, un accord avec l’éditeur est nécessaire, mais LOCKSS permet de gérer aussi les revues en open access.
Le principe de la collecte de pages Web, qui est utilisé, permet de conserver l’aspect ("look & feel") des revues ; aucune migration n’est prévue sauf si elle est nécessaire pour la consultation. Par contre il y a une méthode de surveillance des trains de bits.
Les boîtes LOCKSS sont ensuite reliées entre elles et répliquées de façon à avoir l’information à plusieurs endroits, et donc toujours disponible.

3. Modèle bibliothéconomique

Enfin une troisième voie : celle de la KB qui, s’étant sentie particulièrement investie de cette mission que personne d’autre ne semblait vouloir assumer, décide de créer e-Depot. Il s’agit de faire rentrer les revues, grâce à un accord avec les éditeurs, dans une archive OAIS basée sur la suite logicielle DIAS d’IBM. Cette archive n’est par ailleurs pas spécialement dédiée aux revues, elle peut manger tous types de documents numériques.

Tous 3 s’intéressent uniquement à la préservation et pas à l’accès. Ca leur permet d’évacuer temporairement les problèmes de droits ! Si un problème survient, et qu’il faut donner accès, ils envisagent que d’autres infrastructures pourront prendre le relai, notamment si la charge est importante.

IPRES : Divers

A part cela, j’ai assisté à différentes « sessions concurrentes » et à des choses qui m’ont personnellement moins intéressée (je ne dis pas que ce n’était pas intéressant en soi). De cela, je ne ferai pas de compte-rendu extensif. En tout état de cause je ne peux pas vous parler non plus des sessions concurrentes auxquelles je n’ai pas assisté, et en particulier celle sur les métadonnées (désolée Fred, j’avais donné priorité aux identifiants).

Quelques petites choses quand même à retenir au passage…

Kopal : il s’agit d’une initiative allemande dont l’objectif est de constituer un framework de préservation pouvant être déployé de façon répartie dans plusieurs archives.
Pour faire vite, il se constitue d’une partie centrale, le "Core", qui gère l’archive (les AIP) et qui repose sur le logiciel DIAS d’IBM (encore eux !) Ensuite, ils ont développé une application Open source, KOLIBRI, qui s’installe dans les différente archives et sert à constituer les SIP et les DIP qui seront versés dans le Core (cette conférence n’était pas OAIS-free ; pour ceux qui ne seraient pas familier avec les notions de SIP, AIP etc vous pouvez les retrouver ici)
Tout ceci fonctionne avec des métadonnées en METS et en LMER, un format qu’ils ont constitué à partir de l’expérience de la bibliothèque de Nouvelle Zélande.

Planets : un projet européen qui se donne pour objectif de réfléchir à un peu tous les aspects de la préservation numérique. Le projet est censé aboutir à un "testbed" qui permettra de démontrer comment on met en oeuvre un projet de préservation. J’attends de voir ça.

N2T : un résolveur d’identifiants pérennes qui se donne pour objectif de résoudre le problème de la pérennité des noms de domaine, rien que cela. Vous êtes une petite institution, vous gérez déjà vos URL (ou vos identifiants ARK, DOI, Handle ou ce que vous voulez), mais vous vous inquiétez sur un possible changement de votre nom de domaine dans les années qui viennent ? Ce projet est pour vous (non, non, je ne pense à personne en particulier ;-)
Il s’agit de rassembler un consortium d’institutions, qui vont tout simplement utiliser de façon intelligente et raisonnée les redirections HTTP pour créer un réseau de pérennisation des identifiants.
C’est une réponse organisationnelle à un problème qui est tout sauf technique : on reconnaîtra bien là les merveilleuses initiatives de mon collègue de la California Digital Library (enfin rencontré en chair et en os !!!)

MathArc : un exemple de projet thématique, piloté par Cornell, qui utilise aDORe, METS, l’OAI, les Web services, Premis, Handle, NOID et l’OAIS – rien que parce qu’il y a tous ces mots dedans, je trouve cela joli.

Vous l’aurez compris, tout cela était un peu technique ;-) Mais ça fait du bien parfois de ne pas se sentir seule face à toutes ces choses, et de se retrouver dans une pièce avec 220 personnes qui ont les mêmes préoccupations tordues que soi !

IPRES : Nos amis archithécaires canadiens

La conférence d’ouverture (keynote) nous a été brillamment administrée par le directeur de la Bibliothèque nationale et Archives du Canada, Ian E. Wilson. Il a eu l’occasion de nous parler, entre autres choses, de cette fusion bizarre entre deux métiers, un sujet assez à l’honneur dans la bibliothécomie française de nos jours.

Campus de Cornell

Cette convergence des métiers au Canada est le fruit d’un constat : après s’être passablement étripés pour savoir qui conserverait quoi, ils ont semble-t-il réalisé que cela n’avait aucun sens, en particulier aux yeux du public, et que dans le monde numérique, eux-mêmes commençaient à avoir du mal à expliquer la différence entre les bibliothécaires, les archivistes, et autres. Tout cela a l’air simple dit comme cela, mais je ne suis pas sûre que cela l’ait vraiment été dans les faits.

Il y avait beaucoup d’autres richesses dans cette keynote, pour ma part j’en ai retenu 3 :

  • Le renoncement. Si on place le numérique au coeur de cette nouvelle institution, on ne peut se contenter de multiplier à l’infini les activités : il convient de réfléchir à ce que l’on va arrêter de faire. Un moment difficile.
  • L’engagement. En mettant des ressources en ligne, en créant des services, nous créons aussi d’énormes coûts de maintenance pour l’avenir, sur lesquels il sera probablement impossible de revenir en arrière. En sommes-nous bien conscients ? Serons-nous capables de l’assumer ?
  • L’éthique professionnelle. Suite à une rencontre des bibliothèques francophones, il la définit en 5 points : un accès public et gratuit aux données – des partenariats non-exclusifs avec le privé – la prise en compte de la préservation à long terme – la non-altération des originaux – l’accès multilingue.

Sinon, cette intervention nous a aussi offert la blague du jour, sur les archivistes : savez-vous pourquoi un mariage entre deux archivistes a toutes les chances de réussir ? Parce que plus ils vieillissent, plus leur intérêt l’un pour l’autre augmente ;-)