Month of octobre, 2006

Indexer une bibliothèque numérique

Dans la suite de ma réflexion sur les outils de consultation de bibliothèque numérique, je me suis intéressée au problème du calcul de pertinence lorsqu'on veut interroger en même temps des données structurées (par exemple, des notices de catalogue) et du plein-texte.

C'est (encore) à la California Digital Library que j'ai trouvé la solution à mes problèmes, et en particulier dans le Melvyl recommender project.

Ce projet avait dans un premier temps pour objectif de montrer qu'on pouvait indexer des données structurées avec un outil de type "plein texte" (par opposition à une base de données). Pour cela, ils ont réuni quelques millions de notices, et les ont indexées grâce à XFT, un framework open source basé sur Lucene. Ca a donné un prototype assez intéressant, en particulier du point de vue de la FRBRisation des notices.

Dans une seconde phase, ils se sont demandé ce qui se passerait si à ces belles métadonnées ils ajoutaient de grosses quantités de plein texte dans des formats et des niveaux de qualité hétérogène. Ils ont donc injecté, en plus des notices, 18000 documents plein texte incluant des PDF, de l'OCR "brut" (non corrigé) et de la TEI (entre autres) et ont recommencé le petit jeu.

Le résultat de leurs cogitations, et les solutions pour faire une indexation réussie de matériel hétérogène et réparti dans

Bibliothéconomie bibliothèques numériques recherche documentaire

Bibliothécaires et archivistes, semblables mais pas mélangés

Pour entrer un peu dans le débat sur la fusion des bibliothécaires et des archivistes en un troisième corps, celui des archithécaires (célèbres pour leur encodage d'inventaires en MARCXML et leur appétit insatiable pour les baguettes de pain qu'il dégustent en grand nombre au petit déjeûner ;-) je vous propose la traduction partielle d'un billet publié par El opiniador de la profe en espagnol, un vieux post qui a presque trois ans mais a été ressuscité dans Vease ademas plus récemment.

- La bibliothéconomie et la documentation ont toutes deux pour objet un type documentaire ou type d'information que nous appellerons bibliographique : un document produit volontairement, à caractère informatif, à des fins de distribution et de communication, quel que soit son support. (...)
- l'archivistique a pour objet un type documentaire très particulier justement appelé archive : c'est un enregistrement documentaire, quel que soit son support, des actions ou des actes réalisés par des personnes physiques ou morales dans l'exercice de leurs fonctions. En conséquence, il est involontaire et unique.
(...)
Affirmer que la bibliothéconomie, la documentation et l'archivistique ne sont que des branches de spécialisation d'une même pratique et que les "professionnels de l'information" peuvent passer de l'une à l'autre sans aucun problème de compétence (...) c'est


Bibliothéconomie

L'historien, le boucher et la bibliothèque

"Bonjour, je vais prendre deux kilos de sources s'il vous plaît !"

Ainsi l'historien de demain s'adressera-t-il à son bibliothécaire, comme si c'était son boucher, pour commander de la source qui aura été préparée spécialement pour lui dans des projets comme celui-ci ou celui-là.

Temple de Zeus

N'est-ce pas la marque d'un orgueil démesuré, que de croire que nous pouvons inventer l'histoire de demain en "créant de la source" ? Ou sommes-nous tellement désespérés par les problèmes de préservation des documents numériques que nous pensons que seuls les documents préparés exprès à cette fin arriveront jusqu'aux générations futures ?

Notre travail de passeurs consiste bien à préserver de la source pour les historiens de demain. Mais le Patrimoine, ce n'est pas une chose qu'on peut constituer de manière arbitraire ou hasardeuse. Seule la collecte ouverte, patiente, et représentative de ce tout qu'est le Web d'aujourd'hui, pourra dans le meilleur des cas servir de source aux historiens de demain.

Quand aux projets History Matters ou Time Capsule, tout ce qu'ils apprendront à ces historiens du futur, c'est que nous traversons en ce début de 21e siècle une époque obsédée par sa propre mémoire, et égarée face au passage du Temps et aux changements qu'il apporte.

Merci à Homo Numericus.

Internet conservation histoire

METS documenté

Sur le site du schéma d'empaquetage de métadonnées METS, on trouve désormais un manuel de 142 pages. On ne pourra plus dire qu'il est mal documenté.

C'est un draft, on a jusqu'au 31 octobre pour faire des remarques.

Bibliothéconomie métadonnées

Confiture numérique

Trop tard pour structurer, je vais encore devoir tout mettre en vrac.

Je l'avais déjà signalé mais maintenant j'ai une idée de ce qu'il y a dedans : Putting content online : a practical guide for libraries, sept. 2006, par Mark Jordan de la Simon Fraser University au Canada. Plus d'infos.
Il aborde des sujets aussi intéressants que la gestion des droits, la gestion des risques, les identifiants pérennes, les métadonnées, les formats, la gestion de projet et la conservation du numérique : autant dire que je trouve cela intéressant !
Deux chapitres sont accessibles en ligne : Project management et Search and display.
Pour l'instant c'est en anglais, on peut espérer qu'ils vont le traduire en français puisque c'est des canadiens ?! Merci à Noémie pour l'info.

Quelques parutions au Digital Curation Centre :

On peut encore soumettre un poster pour leur conférence, fin novembre.

Quelques lectures concernant le projet Google print et la numérisation de masse :

Enfin, le dossier numérisation sur Bibliodoc.



Bibliothéconomie bibliothèques numériques livres conservation

La Tentation

Ce sujet a été abordé à IPRES. Et si la numérisation (et la perspective de sa conservation sur le long terme) avait un effet pervers : les décideurs pourraient penser qu'il n'est plus utile de conserver les originaux, et en profiter pour les vendre au meilleur prix afin de réinvestir dans autre chose.

La tentation de St Antoine, par Callot

Cette tentation ne paraît pas si hallucinante, quand on voit qu'à Karlsruhe des gens sont prêts à revendre les manuscrits de la bibliothèque, sans même avoir songé à les numériser d'abord !

Je trouve totalement scandaleux qu'on puisse seulement avoir l'idée de vendre ce genre de patrimoine dans une bibliothèque, quelle qu'en soit la raison (enfin, encore si c'était pour sauver des gens ou résoudre définitivement le problème de la faim dans le monde). Et il m'est tout aussi odieux de penser qu'on puisse sacrifier sur l'autel de la numérisation des originaux qui n'ont fait de mal à personne.

Quand on commence un projet de numérisation, il est essentiel de défendre dès le départ le principe d'intégrité des originaux : une intégrité qui suppose qu'on ne les détruit pas, et qu'on ne les aliène pas non plus.

Dans un environnement patrimonial, la numérisation devrait également jouer son rôle conservation préventive : la communication des originaux n'étant dès lors accordée que si elle est vraiment nécessaire (je sens que là,

Bibliothéconomie bibliothèques numériques conservation interfaces images

IPRES : Conclusion

Me voici rentrée à Paris, entière et fatiguée, et j'ai même réussi, après quelques péripéties, à récupérer mes bagages.

Beebe Lake

Je voulais faire une synthèse de la synthèse de la conférence, mais je n'ai pas trop le courage ; je vais donc me contenter assez lâchement de vous renvoyer aux excellentes conclusions de Jill sur Digitization 101.

Je vous rajouterai aussi un petit lien quand les présentations seront en ligne. Et voilà, retour à la vraie vie ;-)

Mise à jour du 01/10 : et voilà, elles sont en ligne en face des noms des intervenants dans le programme.

Bibliothéconomie conservation

IPRES : Divers

A part cela, j'ai assisté à différentes "sessions concurrentes" et à des choses qui m'ont personnellement moins intéressée (je ne dis pas que ce n'était pas intéressant en soi). De cela, je ne ferai pas de compte-rendu extensif. En tout état de cause je ne peux pas vous parler non plus des sessions concurrentes auxquelles je n'ai pas assisté, et en particulier celle sur les métadonnées (désolée Fred, j'avais donné priorité aux identifiants).

Quelques petites choses quand même à retenir au passage...

Kopal : il s'agit d'une initiative allemande dont l'objectif est de constituer un framework de préservation pouvant être déployé de façon répartie dans plusieurs archives.
Pour faire vite, il se constitue d'une partie centrale, le "Core", qui gère l'archive (les AIP) et qui repose sur le logiciel DIAS d'IBM (encore eux !) Ensuite, ils ont développé une application Open source, KOLIBRI, qui s'installe dans les différente archives et sert à constituer les SIP et les DIP qui seront versés dans le Core (cette conférence n'était pas OAIS-free ; pour ceux qui ne seraient pas familier avec les notions de SIP, AIP etc vous pouvez les retrouver ici)
Tout ceci fonctionne avec des métadonnées en METS et en LMER, un format qu'ils ont constitué à partir de l'expérience de la bibliothèque de Nouvelle Zélande.

Planets : un projet européen


Bibliothéconomie conservation identifiants

IPRES : préserver les revues numériques

Parmi tous les objets numériques à préserver, les revues scientifiques ont sans doute été les premières à apparaître comme à la fois menacées et importantes, et à faire l'objet d'une véritable action de préservation. Aujourd'hui on peut en voir les résultats, assez aboutis. Dans cette session, nous avons pu observer trois modèles très différents. Les intervenants étaient :

Ecureuil

1. Modèle centralisé

Ce modèle est glorieusement représenté par Portico, une organisation à but non lucratif qui émane de JSTOR.
Pour synthétiser leur façon de procéder, ils font entrer les revues (uniquement peer-reviewed) de leurs partenaires éditeurs dans une archive en vue de les préserver sur le long terme. Si un problème survient (par ex., une faillite de l'éditeur), la revue devient accessible aux bibliothèques partenaires (lire : abonnées).
D'un point de vue technique, ils travaillent sur les "masters", donc les fichiers source et non la version communiquée au public. Ils ne préservent donc que le contenu, pas l'aspect. Par ailleurs, dès que l'objet entre dans l'archive, il est immédiatement migré vers un format ouvert.
Evidemment les éditeurs payent pour ce service,


Bibliothéconomie conservation

IPRES : Audit et certification

Cette session portait sur les initiatives visant à auditer les entrepôts/archives de préservation de documents numériques pour savoir s'il sont dignes de confiance (trusted ou plutôt trustworthy). Les trois interventions étaient présentées par :

Cornell Library

Les trois interventions étant fortement convergentes, il est facile de les synthétiser autour de 3 points.

1. Les buts de la démarche d'audit

A quoi bon auditer des archives, me direz-vous ? Le but le plus évident est d'obtenir une forme de certification, un "label" permettant d'établir que l'archive est digne de confiance. Mais Robin Dale nous a bien fait valoir qu'avant d'atteindre ce but, il y a d'autres intérêts à cet audit pour le fonctionnement même de l'archive, comme par exemple, disposer de critères pour différencier une véritable archive de préservation d'un "bête" Institutionnal Repository. Finalement, le but de la démarche d'audit est avant tout d'évaluer les vulnérabilités et les risques qui pèsent sur l'archive, en toute transparence, pour établir une confiance.
Pour résumer, le but n'est pas d'avoir écarté tous les risques,

Bibliothéconomie conservation

IPRES : Nos amis archithécaires canadiens

La conférence d'ouverture (keynote) nous a été brillamment administrée par le directeur de la Bibliothèque nationale et Archives du Canada, Ian E. Wilson. Il a eu l'occasion de nous parler, entre autres choses, de cette fusion bizarre entre deux métiers, un sujet assez à l'honneur dans la bibliothécomie française de nos jours.

Campus de Cornell

Cette convergence des métiers au Canada est le fruit d'un constat : après s'être passablement étripés pour savoir qui conserverait quoi, ils ont semble-t-il réalisé que cela n'avait aucun sens, en particulier aux yeux du public, et que dans le monde numérique, eux-mêmes commençaient à avoir du mal à expliquer la différence entre les bibliothécaires, les archivistes, et autres. Tout cela a l'air simple dit comme cela, mais je ne suis pas sûre que cela l'ait vraiment été dans les faits.

Il y avait beaucoup d'autres richesses dans cette keynote, pour ma part j'en ai retenu 3 :

  • Le renoncement. Si on place le numérique au coeur de cette nouvelle institution, on ne peut se contenter de multiplier à l'infini les activités : il convient de réfléchir à ce que l'on va arrêter de faire. Un moment difficile.
  • L'engagement. En mettant des ressources en ligne, en créant des services, nous créons aussi d'énormes coûts de maintenance pour l'avenir, sur lesquels il sera probablement impossible de revenir en arrière. En

Bibliothéconomie bibliothèques numériques

Ithaca

Hier a été une journée particulièrement longue - oui, quand on voyage dans ce sens de la planète, ça rallonge vachement - et aujourd'hui c'était ma journée de relâche. J'en ai donc profité pour visiter une partie d'Ithaca.

Divers inutile vacances

Encore en vadrouille

IPRES est une des grandes conférences internationales annuelles dans le domaine de la préservation du numérique. Elle a lieu cette année à Cornell University, Ithaca, les 9 et 10 octobre 2006... la semaine prochaine quoi.

C'est plus loin que Göttingen mais j'ai quand même la chance d'y aller ! Je vous ferai des comptes-rendus réguliers si j'ai le temps.

Bienvenue à Cornell

Mise à jour :

Juste avant de commencer à bloguer le contenu de la conférence, je voudrais préciser quelques points. Il n'y a rien de pire que de bloguer une conférence en balançant ses notes en ligne directement, c'est indigeste au possible. Donc comme je suis sympa je vais faire des synthèses, et un seul billet par session. J'essayerai de les faire dans l'ordre et au fur et à mesure, mais il faudra être patient. En outre je ne synthétiserai que ce qui m'a intéressé (désolée pour les autres).

Par ailleurs, les présentations sont en anglais et je synthétise en français, donc je suis désolée si je prends quelques libertés avec les contenus originaux. De la même façon je n'hésiterai pas à donner mon avis, sinon ça sert à quoi d'avoir un blog, franchement.

Bibliothéconomie conservation

Pérenniser le document numérique

C'est le premier bouquin en français entièrement consacré à ce sujet :

Pérenniser le document numérique. Séminaire INRIA, 2-6 octobre 2006, Amboise. Ouvrage coordonné par Lisette Calderan, Bernard Hidoine et Jacques Millet. ADBS, 2006.

Epigraphie

Bibliothéconomie livres conservation

Back to the future

J'en ai à peine cru mes yeux en lisant cet article dans Dlib : Repository Librarian and the Next Crusade - The Search for a Common Standard for Digital Repository Metadata. Ecrit par des gens du LANL, il défend une théorie époustouflante : MARCXML serait le meilleur format de métadonnées possible pour des entrepôts numériques...

C'est très étonnant car comme ils le disent eux mêmes :

Au début, MARC et MARCXML étaient perçus comme trop bibliocentriques et trop rigides. L'équipe était également préoccupée par la viabilité et le manque de popularité de ce format dans la communauté. (...) Le grand nombre de combinaisons d'étiquettes/indicateurs/sous-champs pouvaient suggérer que la complexité de ce standard serait problématique.

Ensuite ils mettent leur priorité sur 3 fonctionnalités du format : granularité, transparence, extensibilité. Là encore, on se sent assez loin de MARC et même de MARCXML. Mais c'est là que l'effet pervers des tableaux de comparaison de fonctionnalités fait son office et montre qu'on peut leur faire dire tout ce que l'on veut.

En comparant MARCXML à ONIX et PRISM (rapidement écartés) et également Dublin Core et MODS, en se limitant à des métadonnées descriptives et aux sujets les plus complexes, on réussit à "prouver" que MARCXML est meilleur que tous ses petits copains.

D'où la conclusion :

Bibliothéconomie métadonnées

Retour

Me voici de retour !

Comme je n'ai pas l'intention de raconter ici mes vacances en Grèce, je vous recommande si jamais cela vous intéresse d'aller lire nos réflexions intelligentes sur les petites cases.

Ensuite vous pourrez subir l'inévitable diaporama des vacances, qui commence ici :

Arrivée à l'Acropole

et se trouve également . Enfin quand même cela pourrait être notable de remarquer que j'ai bel et bien cueilli des figues.

Puis retour à la normale ;-)

PS : ah oui et j'oubliais, j'ai créé un groupe sur les figues dans Flickr, n'hésitez pas à contribuer, j'accepterai un peu tout : figues, figuiers, choses à la figue, photos de plats et recettes...

Confiture de figues figues vacances