Vous avez dit « virtuel » ?

Non, en fait, j’ai dit numérique et pas virtuel.

La preuve : pour stocker des documents numériques, il faut de la place. Beaucoup de place. Par exemple un container.

A part ça, pour stocker des documents numériques, il faut de la puissance, beaucoup de puissance. Par exemple celle d’Amazon.

Du coup, pour stocker des documents numériques correctement et sur le long terme, il va falloir du temps, beaucoup de temps. Au moins 100 ans de réflexion.

Merci à Got et Faut le savoir, à Thierry et à 10KY blog.

3 ressources sur les métadonnées

Un bouquin : Metadata and its impact on libraries. A lire le résumé, je ne suis pas sûre d’être d’accord avec tout dans cet ouvrage (notamment la définition des métadonnées…), mais cela semble être une synthèse correcte et assez complète.

Un article dans Dlib : Beneath the Metadata – Some Philosophical Problems with Folksonomy. Après le coup de MARCXML, voilà maintenant qu’ils nous expliquent les différences entre l’indexation bibliothéconomique et le social tagging, et que la première est le Bien et la seconde le Mal… Pourrait-on cesser un peu d’opposer ces deux modèles et de voir le monde en noir et blanc ? Donc je ne suis pas très d’accord avec ça non plus.

Un rapport chez HP : What next for semantic blogging. Celui-ci présente un prototype d’utilisation des blogs pour créer des réseaux sémantiques. Il mélange un peu tout, les microformats, le RSS, le RDF, FOAF… Mais il y a sans doute de bonnes idées. Au moins, il écarte la tarte à la crème 2.0.

Bon c’est pas très glorieux tout ça : la blogosphère est acide et moi avec. J’essayerai de positiver un autre jour.

Merci à Resourceshelf et Catalogablog.

C’est Noël

Voilà, mon nouveau graphisme est en place. Vous avez le droit de protester avec véhémence dans les commentaires de ce billet, surtout si ça ne passe pas bien dans votre résolution d’écran ou avec votre navigateur/aggrégateur préféré. Vous remarquerez qu’il n’y a pas de violet… et si vous n’aimez pas non plus le rose, c’est le même prix !

C’est un peu bêta

C’est la mode dans les bibliothèques de sortir des trucs en version bêta. La preuve par l’exemple…

La Library of Congress a sorti un beta search assez intéressant. Une recherche simple qui fédère toutes les ressources de la bibliothèque (catalogue, bibliothèque numérique, site Web) : cela fait carrément penser à la National Library of Australia qui propose le même service, pas beta, sur sa page d’accueil depuis au moins 2 ans.

La Bibliothèque numérique d’Oxford a sorti un site beta construit avec Greenstone. Je trouve cela dommage qu’on soit obligé d’entrer par collection, à l’anglo-saxonne : ça manque un peu de recherche globale.

Merci à Peter Scott et à ResourceShelf.

Y a-t-il un pilote dans l’avion ?

Epatant de voir qu’en 2006, les bibliothécaires s’inquiètent de savoir si la bibliothèque numérique se fera sans eux.

D’après cet article daté de 2005, il nous a fallu plus de 10 ans pour arrêter de considérer les bibliothèques numériques comme un problème technique ou technologique, et les aborder sérieusement d’un point de vue organisationnel et métier.

Alors que dans le domaine de l’édition électronique, on a dépassé depuis longtemps le concept de la désintermédiation, nous en sommes encore à nous extasier de découvrir que les lecteurs utilisent Google sans passer par nous.

Plus de 10 ans de cahiers des charges, de métadonnées, de normes et de protocoles, de spécifications fonctionnelles, d’études d’usages, d’interfaces, de moteurs, et nous croyons toujours que le bibliothécaire numérique n’existe que s’il fait de la référence en ligne ou s’il acquiert des revues. (Le monde numérique ne se limite pas aux revues, que diable !)

Il serait peut-être temps d’admettre que les bibliothèques 2.0 seront animées par… des bibliothécaires. Oui.

Dis-moi ton format, je te dirai comment durer

Le dernier n° de RLG Diginews est quasiment entièrement consacré à la préservation du numérique.

On y trouve notamment un retour d’expérience très intéressant concernant le sauvetage des "vieilles" données numériques détenues par les chercheurs de Cornell. Le "File Format and Media Migration Pilot Service" est un service de sauvetage à la demande de données numériques, qui a tourné pendant deux ans. Les individus apportaient leurs données (sur les supports qu’ils avaient) et l’équipe se chargeait de les faire migrer.
Une des conclusions intéressantes de l’étude est que finalement, les supports (disquettes, cartouches etc.) étaient en bon état, mais ce qui manquait le plus cruellement, c’était la documentation des plateformes et des logiciels qui avaient servi à créer les données.
A noter également, plus on attend, plus c’est difficile de récupérer les données.
Enfin, une conclusion vraiment surprenante : on ne peut pas faire confiance aux individus pour archiver leurs données, il vaut mieux les déposer dans un institutional repository. Incroyable, non !

Toujours dans la même revue, et toujours en provenance de Cornell, on trouve ensuite une évaluation de 5 outils de migrations de formats et d’extraction de métadonnées :

  • le Digital Asset Preservation Tool d’IBM (open source), une sorte d’outil d’émulation
  • le LuraDocument PDF Compressor Desktop v.4 (qui génère du PDF/A)
  • le TOM (Typed Object Model) Conversion Service, un outil de migration en Java qui dispose d’une version test en ligne
  • le National Library of New Zealand (NLNZ) Metadata Extraction Tool, un outil open source en java qui analyse les formats et extrait les métadonnées
  • et enfin, un autre analyseur de format : TrID File Identifier.

Indexer une bibliothèque numérique

Dans la suite de ma réflexion sur les outils de consultation de bibliothèque numérique, je me suis intéressée au problème du calcul de pertinence lorsqu’on veut interroger en même temps des données structurées (par exemple, des notices de catalogue) et du plein-texte.

C’est (encore) à la California Digital Library que j’ai trouvé la solution à mes problèmes, et en particulier dans le Melvyl recommender project.

Ce projet avait dans un premier temps pour objectif de montrer qu’on pouvait indexer des données structurées avec un outil de type "plein texte" (par opposition à une base de données). Pour cela, ils ont réuni quelques millions de notices, et les ont indexées grâce à XFT, un framework open source basé sur Lucene. Ca a donné un prototype assez intéressant, en particulier du point de vue de la FRBRisation des notices.

Dans une seconde phase, ils se sont demandé ce qui se passerait si à ces belles métadonnées ils ajoutaient de grosses quantités de plein texte dans des formats et des niveaux de qualité hétérogène. Ils ont donc injecté, en plus des notices, 18000 documents plein texte incluant des PDF, de l’OCR « brut » (non corrigé) et de la TEI (entre autres) et ont recommencé le petit jeu.

Le résultat de leurs cogitations, et les solutions pour faire une indexation réussie de matériel hétérogène et réparti dans une bibliothèque numérique, figure dans le rapport de la 2e phase. Le plus intéressant à mon sens est

  • la mise en place de la FRBRisation à la volée (ça fait classe de dire FRBRisation, mais en fait c’est une sorte de dédoublonnage amélioré)
  • le paramétrage de Lucene pour que l’algorithme de pertinence prenne en compte la qualité des métadonnées et évite « d’écraser » sous des tonnes de plein texte des résultats qui auraient une occurrence pertinente dans le titre ou l’auteur.

Ca peut paraître technique, mais il me semble difficile de croire qu’on va pouvoir numériser à tour de bras et OCRiser à tour de bras, sans se demander comment on va faire pour trouver quelque chose là-dedans à la fin. Même si on a l’intention d’utiliser un moteur du marché comme Fast, à l’exemple des allemands de Bielefield. Sinon il faudra s’en remettre à eux ;-)

Merci, mais alors merci, à FRBR blog qui n’imagine pas à quel point il m’a rendu service avec ce billet.