Lectures

Quelques petites choses à lire ces prochains jours…

Sur les identifiants pérennes, ce rapport fait le tour des systèmes existants et propose un certain nombre de conseils d’implémentation. Il est publié par la CERL et l’European Commission on Preservation and access, en creative commons ;-)

Un article dans Dlib sur les audits de systèmes d’archivage et la certification. Un sujet qui m’avait passionnée à IPRES. Il y a quelques autres références sur le même sujet dans le dernier DPC/PADI What’s new in digital preservation.

Plusieurs documents publiés en Grande-Bretagne et autour de la British Library, sur le thème des droits de propriété intellectuelle.

La numérisation de masse

"Mass digitization" : voici un des sujets de cogitation en ce moment aux US. Ils englobent là-dedans les projets googeliens, OCAesques et MSNiques.
Un peu d’historique n’est pas inutile pour rappeler que si en France nous travaillons depuis plus de 10 ans à une numérisation encyclopédique de livres en vue d’atteindre une masse critique (moins critique que celle de Google certes ;-), dans les pays anglosaxons c’est plutôt une logique de collection qui a dominé les initiatives de numérisation, donc avec une forte dimension patrimoniale et dans certains cas éditoriale.
La numérisation de masse, tel que définie par Google&Co, constitue donc pour eux une vraie rupture alors que pour nous ce serait plutôt un changement d’échelle.

Karen Coyle a écrit sur ce sujet un article qui a l’air intéressant mais il est en accès payant. On en trouve des extraits sur OA news et sur Archivalia.

On peut lire également les remarques de J. Esposito, qui propose quatre exigences de base (requirements)à l’égard de ce type de projets :

  • adopter une approche « archivistique » (moi j’aurais dit « patrimoniale », c’est-à-dire dans le respect de l’authenticité de la source)
  • numériser des éditions récentes avec un appareil éditorial adapté pour les étudiants (ici ça se discute, il y a le problème des droits bien sûr, mais aussi une évolution à envisager – un monde où les chercheurs construiraient leurs éditions directement en ligne à partir de la numérisation…)
  • présenter les documents dans un environnement permettant les annotations et les commentaires (quelle bonne idée:-)
  • permettre aux machines de travailler sur le contenu : data mining, extraction d’information.

Pour conclure il remarque qu’aucun des grands projets de numérisation de masse actuels ne respecte ces 4 exigences. Ce que Jill traduit par la question suivante : les projets de numérisation de masse devront-ils être refaits ?

Le problème avec la masse, c’est que plus elle augmente, plus la qualité baisse. Il faudrait pourtant réussir à réconcilier les deux, au moins pour la création des fac-similés image pour ne pas avoir à refaire la numérisation. Les traitements (OCR par exemple) seront refaits de toute façon car leur performance s’améliorera avec le temps. Donc on devrait se focaliser sur deux tâches essentielles qui nous éviteront d’avoir à ressortir les originaux « analogiques » de nos magasins dans 10 ans :

  • la qualité et la fiabilité de la numérisation des images
  • la conservation des images numériques sur le long terme.

Tutoriel sur la conservation numérique

Aaaaah… Cornell. Ses chutes, ses belles pelouses… et ses tutoriels traduits en fançais !

Cornell Campus

Je connaissais déjà celui sur la numérisation, en voici un autre sur la préservation du numérique. Le premier était vraiment très bien, le deuxième je ne l’ai pas encore lu mais on en dit le plus grand bien. Vous pouvez voir par exemple la critique élogieuse de Jill.

Visualisation de collection numérique

Bungee View est un prototype en java pour butiner des collections numériques. Il montre comment on peut utiliser les données structurées pour trouver de l’information.

A mon avis, ce genre d’outil présente toujours le même défaut : entre un niveau de complexité trop élevé pour la prise en main, et un aspect un peu « gadget » qui donne envie de cliquer partout, l’utilité documentaire reste à prouver.

Merci Resourceshelf.

Google et la lecture à l’écran

J’ai pas mal râlé contre les interfaces de lecture de livres numérisés qui ne prennent pas en compte des fonctionnalités simples comme le zoom, l’affichage de la structure, etc.

Et voilà que Google annonce son nouveau visualiseur de livre : qui propose, en vrac

  • un zoom avant-arrière
  • un tourne-page pour les amoureux du livre « à l’ancienne »
  • un ascenseur vertical, avec chargement progressif des pages, pour les amoureux de la lecture dans Word
  • un affichage « plein-écran » pour plus de confort
  • un système de palettes refermables pour les différents services (notice, achat en librairie, etc.)
  • une table des matières en mode texte (parfois un peu limitée, mais bon, elle existe)
  • un lien vers un service de recommandation et vers Google Scholar

et toujours

  • une interface simple et intuitive
  • le téléchargement de l’ouvrage complet en PDF
  • la recherche de mots dans le livre.

D’un point de vue fonctionnel, c’est presque parfait. Avec ce nouvel outil, Google nous montre une fois de plus à quel point ils sont réactifs face aux critiques, capables de trouver les compétences adéquates quand ils en ont besoin, et efficaces quand il s’agit de faire progresser leurs applications.

Evidemment, ça ne change rien à tout ce qu’on a pu dire sur la qualité de numérisation qui laisse parfois à désirer, ou sur la façon douteuse de constituer la collection et les listes de résultats. Mais ça progresse.

Et puis, n’oublions pas que pour atteindre cet objectif, ils ont des moyens quasiment illimités et une puissance machine démentielle pour soutenir cette belle interface en Ajax (ce qui n’est pas le cas de tout le monde).

3 ressources sur les métadonnées

Un bouquin : Metadata and its impact on libraries. A lire le résumé, je ne suis pas sûre d’être d’accord avec tout dans cet ouvrage (notamment la définition des métadonnées…), mais cela semble être une synthèse correcte et assez complète.

Un article dans Dlib : Beneath the Metadata – Some Philosophical Problems with Folksonomy. Après le coup de MARCXML, voilà maintenant qu’ils nous expliquent les différences entre l’indexation bibliothéconomique et le social tagging, et que la première est le Bien et la seconde le Mal… Pourrait-on cesser un peu d’opposer ces deux modèles et de voir le monde en noir et blanc ? Donc je ne suis pas très d’accord avec ça non plus.

Un rapport chez HP : What next for semantic blogging. Celui-ci présente un prototype d’utilisation des blogs pour créer des réseaux sémantiques. Il mélange un peu tout, les microformats, le RSS, le RDF, FOAF… Mais il y a sans doute de bonnes idées. Au moins, il écarte la tarte à la crème 2.0.

Bon c’est pas très glorieux tout ça : la blogosphère est acide et moi avec. J’essayerai de positiver un autre jour.

Merci à Resourceshelf et Catalogablog.

Y a-t-il un pilote dans l’avion ?

Epatant de voir qu’en 2006, les bibliothécaires s’inquiètent de savoir si la bibliothèque numérique se fera sans eux.

D’après cet article daté de 2005, il nous a fallu plus de 10 ans pour arrêter de considérer les bibliothèques numériques comme un problème technique ou technologique, et les aborder sérieusement d’un point de vue organisationnel et métier.

Alors que dans le domaine de l’édition électronique, on a dépassé depuis longtemps le concept de la désintermédiation, nous en sommes encore à nous extasier de découvrir que les lecteurs utilisent Google sans passer par nous.

Plus de 10 ans de cahiers des charges, de métadonnées, de normes et de protocoles, de spécifications fonctionnelles, d’études d’usages, d’interfaces, de moteurs, et nous croyons toujours que le bibliothécaire numérique n’existe que s’il fait de la référence en ligne ou s’il acquiert des revues. (Le monde numérique ne se limite pas aux revues, que diable !)

Il serait peut-être temps d’admettre que les bibliothèques 2.0 seront animées par… des bibliothécaires. Oui.