La bibliothèque numérique du monde

Le projet de "World digital library" a été annoncé dès 2005 par J. Billington, directeur de la Library of Congress. Il y a peu, le monsieur était à Paris à l’UNESCO pour présenter sa bibliothèque numérique du monde : un projet assez différent de ceux qui relèvent de la "numérisation de masse" puisqu’il s’agit plutôt de valoriser des fonds patrimoniaux représentatifs de la culture du monde. Une expo virtuelle géante en quelque sorte.

Bref, je suis tombée aujourd’hui sur le site de la World digital library ou plutôt de son projet puisque pour l’instant, ce qu’il y a à voir c’est surtout une vision… Ne loupez à aucun prix cette vidéo. C’est un petit bijou de marketing, une remarquable mise en scène et en écrans du numérique (et ce n’est pas facile de filmer le numérique).

Je ne sais pas si cette débauche de « hype » bien léché me fait vraiment envie en tant que professionnelle des bibliothèques. Disons que si on m’avait demandé de faire la maquette d’une grande bibliothèque numérique internationale, je n’aurais probablement pas fait cela ;-) Mais il faut avouer que c’est assez prometteur.

Le livre libre

Il y a quelques temps je m’étais pas mal amusée sur les sites de musique libre, et voilà que je viens de découvrir la même chose pour le livre.

In libro veritas est un site sur lequel on peut publier et lire gratuitement ; on y trouve aussi bien des auteurs du domaine public que des livres d’amateurs.

Quelque part entre la bibliothèque numérique, l’éditeur à compte d’auteur, la plateforme de blog et le libraire 2.0, il y a In libro veritas. Tous les contenus sont en creative commons.

Ce site m’intrigue. Quelqu’un connaît ? quelqu’un l’a déjà pratiqué ?

Merci à Bloginfo.

Collections ou accès ?

La semaine dernière, j’ai été invitée à l’ENSSIB pour participer à un débat sur le thème : "collections ou accès" ?

A départ, cette opposition paraissait absurde à la bibliothécaire patrimoniale que je suis : pour moi c’est collections ET accès, indissociablement. Mais en écoutant parler P. Bazin (BM de Lyon) c’est devenu plus clair et je pense que ses propos méritent d’être rapportés ici, en espérant que je ne les trahirai pas trop.

Dans une vision traditionnelle de la bibliothèque, la collection est au centre de l’organisation, de l’entité bibliothèque. Cela se traduit par une vision rationnaliste du développement de la collection, exprimée dans une charte.
Or cette vision est aujourd’hui dépassée : on positionne beaucoup plus la bibliothèque en termes d’accès, et en fonction des usagers (P.B. refuse le terme d‘usages, trop tourné vers le concept, pour préférer celui d‘usager qui est plus ancré dans le concret.)
Un certain nombre de concepts peuvent aider à adapter la collection aux logiques d’accès, notamment celui de l‘accompagnement : dans l’idée que les lecteurs sont de plus en plus experts et que la société de l’information est une société où les concepts de la bibliothéconomie sont entrés dans la vie courante, le bibliothécaire se positionne non pas en autorité, mais en médiateur qui peut accompagner le lecteur dans sa quête de la connaissance. Le guichet du savoir est emblématique de cette démarche et de l’idée que le bibliothécaire n’est plus médiateur d’une collection, mais des contenus eux-mêmes.

Ce qui est intéressant de mon point de vue, c’est l’idée que l’Internet, et plus particulièrement le Web 2.0, rend visibles un certain nombre d’évolutions (participation des utilisateurs, relativité des documents entre eux) qui sont également vraies dan la bibliothèque traditionnelle.
Finalement ce n’est pas nouveau, et Ranganathan (ah ah, vous voyez j’y viens) l’avait déjà énoncé : les livres sont faits pour être utilisés, à chaque lecteur son livre, épargnons le temps du lecteur… Vous remarquerez que la notion de collection n’apparaît pas dans les 5 lois de Ranganathan ; on est au plus près du contenu, et au plus près de l’usager.

Dans le monde numérique, le couple contradictoire et complémentaire collections/accès pourrait s’exprimer par numérisation de masse/web 2.0.
La numérisation de masse rend la collection accessible, disponible. On n’est plus sur le modèle de l’ancienne charte documentaire, raisonnée, organisée et parfois rigide. L’idée d’encyclopédisme dans la constitution de la collection repose sur les "épaules de géants" – on s’appuie sur des collections déjà constituées par le temps dans les bibliothèques, donc elles sont pertinentes a priori – et sur le mythe de la reproduction absolue – on sera capable de tout numériser.
Pour que cette masse soit intelligible, il va cependant falloir trouver un moyen de la valoriser, et cette valorisation ne peut se faire qu’au plus près des usagers et de leurs pratiques : à chaque lecteur son livre, à chaque livre son lecteur.

Or il n’y a pas un usager et une seule pratique : il y a tout un spectre d’usages possibles qu’il va falloir identifier, capter et animer pour construire les différentes vues que ces usages constituent sur la collection.
Dans la bibliothèque physique, cette animation peut prendre la forme d’expositions, de conférences, etc.
Dans la bibliothèque numérique, ce sont les outils du Web 2.0 : blogs, forums, wikis, commentaires, tags, etc.

Moralité, il n’y a plus une collection organisée à laquelle s’adressent les usagers. Il y a un fonds dans lequel les usagers puisent pour faire émerger des collections organisées.

Les objectifs de la numérisation

Bon, à la demande générale ;-) je vais éclaircir un peu le propos de mon billet sur la numérisation de masse, et parler des objectifs de la numérisation.
Question de base : pourquoi numérise-t-on dans les bibliothèques, et comment ?

D’abord, une bibliothèque qui se lance dans la numérisation ne le fait jamais dans l’absolu, comme si elle partait d’une table rase. Elle bénéficie d’un existant : ses missions, sa politique documentaire, ses collections. C’est donc à partir de ces trois principaux éléments qu’elle va se lancer dans la numérisation.

Il y a plusieurs raisons pour se lancer dans la numérisation et historiquement la première, dans les bibliothèques, a été la valorisation. Sur le fond, la valorisation numérique présente peu de différences avec la valorisation traditionnelle. Il s’agit de faire connaître les trésors de la bibliothèque à un public plus large au moyen d’une présentation attrayante (ludique, pédagogique, esthétique) et dont l’accès est plus ouvert que celui des salles de lecture (une exposition, un livre).
Vous voyez tout de suite ce que cela implique : une numérisation de valorisation porte sur des objets particuliers (précieux, rares), vise un public particulier (le fameux "grand public") et emploie des formes particulières. Ce genre d’initiative débouche sur des expositions virtuelles, des présentations de collections numériques, et sur des interfaces comme le tourne-page.
Avantage : c’est joli, ludique, attrayant, ça donne une bonne image de la bibliothèque et ça plaît aussi aux gens qui ne sont pas spécialistes.
Inconvénient : ce genre d’interface est inutilisable par des personnes qui s’intéressent au même document à d’autres fins (un peu comme si on demandait à un chercheur spécialiste de la génétique des textes de travailler sur un manuscrit de Proust exposé dans une vitrine).

Ce qui m’amène à un deuxième type de numérisation : la numérisation "à la demande" ou spécialisée. Cette fois c’est l’inverse : au lieu de s’adresser au grand public, on fait une numérisation destinée à répondre aux besoins spécifiques d’une personne ou d’une communauté identifiée. Dans une optique commerciale, cela peut déboucher sur une banque d’achat d’images, ou sur des banques de textes. Dans une optique de recherche, cela peut déboucher sur une base de données spécifique à un type d’étude particulier, ou sur une numérisation limitée en quantité et de très haute qualité.
Avantage : le public est déjà ciblé et on répond précisément à ses attentes donc le succès est plus facilement assuré, au moins auprès d’un nombre limité de personnes.
Inconvénient : c’est toujours inutilisable par des personnes qui s’intéressent au même document à d’autres fins (typiquement, c’est bien de ne numériser que des enluminures mais celui qui travaille sur le texte du manuscrit se retrouve le bec dans l’eau). Ou alors cela ne couvre qu’un spectre documentaire/thématique très limité.

Troisième cas, la numérisation de sauvegarde. Je désigne par ce terme le fait d’utiliser la numérisation comme support de conservation préventive et de substitution. Hors jargon bibliothéconomique : on numérise le bouquin pour que les gens consultent la version numérique à la place d’abîmer l’original. Cette numérisation répond à des plans de sauvegarde des collections, ça veut dire qu’on commence par numériser les documents qui sont en danger : les plus fragiles (mais pas forcément les plus précieux, typiquement la presse ou les cassettes vidéo). Avant on faisait du microfilm, mais soyons sérieux, bientôt (?) cela coûtera trois fois plus cher de réparer un lecteur de microfilms que d’acheter un PC, et de toutes façons plus personne ne saura le faire. Il faut donc passer au numérique.
Avantage : une grande facilité de consultation par rapport à l’ancien support de substitution, qui n’offrait que des capacités limitées de lecture simultanée et une "expérience de lecture" peu optimisée.
Inconvénient : pas de public assuré pour consulter cette numérisation, et comme les originaux sont en voie de disparition, il faut qu’elle soit fiable, authentique et pérenne car c’est bientôt (ou déjà) le seul moyen d’accéder à ces documents là.

Quatrième cas, la bibliothèque numérique proprement dite : la bibliothèque va projeter ses missions, sa politique documentaire et ses collections dans le monde numérique, de façon à présenter un ensemble cohérent et organisé de documents en ligne. Les missions de la bibliothèque numérique sont plus ou moins calquées sur ses missions dans la vraie vie : recherche pour une bibliothèque de recherche, patrimonial pour une bibliothèque patrimoniale, etc. Donc cela peut recouper en partie les trois types ci-dessus, avec une notion de gestion de collection et de masse critique en plus.
Il y a beaucoup à dire sur la bibliothèque numérique : voir par exemple , ici, etc.
Avantage : c’est un service cohérent avec une politique documentaire, des missions, des services, etc. capable en principe de répondre aux besoins d’un public diversifié.
Inconvénient : c’est très compliqué et coûteux à organiser. Même très très compliqué.

Le dernier que je citerai n’est pas un type de numérisation à proprement parler. C’est un état d’esprit… dont je parlais ici : l’utopie de la reproduction universelle, où tous les documents seraient passés sur un nouveau support, plus performant. Frédéric Barbier rappelle dans son article du BBF que c’est bien une utopie car à chaque changement de support on perd une partie de l’information. Le cauchemar de Babel, le mythe de l’indexation permettant d’"organiser l’information du monde", la recherche d’un changement de paradigme digne de l’invention de l’imprimerie, et la bibliothèque sans murs constituent l’imaginaire de la numérisation de masse.
Cet état d’esprit témoigne des espoirs que l’on place aujourd’hui dans la numérisation de masse. Mais on prend peut-être le problème à l’envers, en pensant que c’est la technologie (la numérisation, avec OCR, indexation et tout le toutim) qui peut résoudre des problèmes. D’abord il faut fixer des objectifs (valoriser, rendre les documents plus accessibles, aider un certain public, diffuser le savoir, organiser l’information du monde, générer des revenus ?) et à partir de ces objectifs on définit les technologies appropriées pour répondre à la question.

Il y a maintes manières de faire de la numérisation, et à chaque objectif correspondent des technologies appropriées, en fonction aussi des moyens dont on dispose. Tous les choix me paraissent respectables ; la seule chose qui ne l’est pas, c’est de numériser par pur attrait de la technicité sans se fixer d’objectif.

La numérisation de masse

"Mass digitization" : voici un des sujets de cogitation en ce moment aux US. Ils englobent là-dedans les projets googeliens, OCAesques et MSNiques.
Un peu d’historique n’est pas inutile pour rappeler que si en France nous travaillons depuis plus de 10 ans à une numérisation encyclopédique de livres en vue d’atteindre une masse critique (moins critique que celle de Google certes ;-), dans les pays anglosaxons c’est plutôt une logique de collection qui a dominé les initiatives de numérisation, donc avec une forte dimension patrimoniale et dans certains cas éditoriale.
La numérisation de masse, tel que définie par Google&Co, constitue donc pour eux une vraie rupture alors que pour nous ce serait plutôt un changement d’échelle.

Karen Coyle a écrit sur ce sujet un article qui a l’air intéressant mais il est en accès payant. On en trouve des extraits sur OA news et sur Archivalia.

On peut lire également les remarques de J. Esposito, qui propose quatre exigences de base (requirements)à l’égard de ce type de projets :

  • adopter une approche « archivistique » (moi j’aurais dit « patrimoniale », c’est-à-dire dans le respect de l’authenticité de la source)
  • numériser des éditions récentes avec un appareil éditorial adapté pour les étudiants (ici ça se discute, il y a le problème des droits bien sûr, mais aussi une évolution à envisager – un monde où les chercheurs construiraient leurs éditions directement en ligne à partir de la numérisation…)
  • présenter les documents dans un environnement permettant les annotations et les commentaires (quelle bonne idée:-)
  • permettre aux machines de travailler sur le contenu : data mining, extraction d’information.

Pour conclure il remarque qu’aucun des grands projets de numérisation de masse actuels ne respecte ces 4 exigences. Ce que Jill traduit par la question suivante : les projets de numérisation de masse devront-ils être refaits ?

Le problème avec la masse, c’est que plus elle augmente, plus la qualité baisse. Il faudrait pourtant réussir à réconcilier les deux, au moins pour la création des fac-similés image pour ne pas avoir à refaire la numérisation. Les traitements (OCR par exemple) seront refaits de toute façon car leur performance s’améliorera avec le temps. Donc on devrait se focaliser sur deux tâches essentielles qui nous éviteront d’avoir à ressortir les originaux « analogiques » de nos magasins dans 10 ans :

  • la qualité et la fiabilité de la numérisation des images
  • la conservation des images numériques sur le long terme.

Ceci est un blog sérieux

A tous les gens qui seraient susceptibles de débarquer ici pour la première fois, suite à un événement impromptu survenu dans ma vraie vie, je voudrais dire que ce blog a beau être rose fluo (j’ai essayé de changer, mais franchement vous seriez déçus) c’est quand même un blog vachement sérieux.

Il y est question de sujets aussi graves que les rapports de la commission européenne sur les droits d’auteurs qui impactent la numérisation, la construction de la bibliothèque numérique du monde, et la préservation des données numériques.

Y sont évoquées des tas de technologies compliquées comme le passage de MARC en RDF, l’impact de l’OAI sur l’interopérabilité, et les services de terminologie.

Ce blog se pose des tas de questions existentielles pour l’avenir de la bibliothéconomie numérique, telles que la modélisation conceptuelle des accès, les entrepôts du Web 2.0, et l’univers des données scientifiques du futur.

Enfin ce blog est truffé de références vers des sites originaux et pertinents, comme la Chronologie d’histoire de l’art du Metropolitan Museum of Art et le moteur BabyGo destiné aux enfants.

En plus, ce blog est vraiment sérieux car il cite ses sources : Resourceshelf et Catalogablog souvent, mais parfois aussi Open Access News et des collègues français comme Affordance. Alors, hein, si c’est pas sérieux tout ça !!! Le seul problème c’est qu’en ce moment je manque de temps pour bloguer aussi sérieusement que je le voudrais… Enfin, il reste toujours les figues ;-)

Google et la lecture à l’écran

J’ai pas mal râlé contre les interfaces de lecture de livres numérisés qui ne prennent pas en compte des fonctionnalités simples comme le zoom, l’affichage de la structure, etc.

Et voilà que Google annonce son nouveau visualiseur de livre : qui propose, en vrac

  • un zoom avant-arrière
  • un tourne-page pour les amoureux du livre « à l’ancienne »
  • un ascenseur vertical, avec chargement progressif des pages, pour les amoureux de la lecture dans Word
  • un affichage « plein-écran » pour plus de confort
  • un système de palettes refermables pour les différents services (notice, achat en librairie, etc.)
  • une table des matières en mode texte (parfois un peu limitée, mais bon, elle existe)
  • un lien vers un service de recommandation et vers Google Scholar

et toujours

  • une interface simple et intuitive
  • le téléchargement de l’ouvrage complet en PDF
  • la recherche de mots dans le livre.

D’un point de vue fonctionnel, c’est presque parfait. Avec ce nouvel outil, Google nous montre une fois de plus à quel point ils sont réactifs face aux critiques, capables de trouver les compétences adéquates quand ils en ont besoin, et efficaces quand il s’agit de faire progresser leurs applications.

Evidemment, ça ne change rien à tout ce qu’on a pu dire sur la qualité de numérisation qui laisse parfois à désirer, ou sur la façon douteuse de constituer la collection et les listes de résultats. Mais ça progresse.

Et puis, n’oublions pas que pour atteindre cet objectif, ils ont des moyens quasiment illimités et une puissance machine démentielle pour soutenir cette belle interface en Ajax (ce qui n’est pas le cas de tout le monde).

C’est un peu bêta

C’est la mode dans les bibliothèques de sortir des trucs en version bêta. La preuve par l’exemple…

La Library of Congress a sorti un beta search assez intéressant. Une recherche simple qui fédère toutes les ressources de la bibliothèque (catalogue, bibliothèque numérique, site Web) : cela fait carrément penser à la National Library of Australia qui propose le même service, pas beta, sur sa page d’accueil depuis au moins 2 ans.

La Bibliothèque numérique d’Oxford a sorti un site beta construit avec Greenstone. Je trouve cela dommage qu’on soit obligé d’entrer par collection, à l’anglo-saxonne : ça manque un peu de recherche globale.

Merci à Peter Scott et à ResourceShelf.

Y a-t-il un pilote dans l’avion ?

Epatant de voir qu’en 2006, les bibliothécaires s’inquiètent de savoir si la bibliothèque numérique se fera sans eux.

D’après cet article daté de 2005, il nous a fallu plus de 10 ans pour arrêter de considérer les bibliothèques numériques comme un problème technique ou technologique, et les aborder sérieusement d’un point de vue organisationnel et métier.

Alors que dans le domaine de l’édition électronique, on a dépassé depuis longtemps le concept de la désintermédiation, nous en sommes encore à nous extasier de découvrir que les lecteurs utilisent Google sans passer par nous.

Plus de 10 ans de cahiers des charges, de métadonnées, de normes et de protocoles, de spécifications fonctionnelles, d’études d’usages, d’interfaces, de moteurs, et nous croyons toujours que le bibliothécaire numérique n’existe que s’il fait de la référence en ligne ou s’il acquiert des revues. (Le monde numérique ne se limite pas aux revues, que diable !)

Il serait peut-être temps d’admettre que les bibliothèques 2.0 seront animées par… des bibliothécaires. Oui.

Indexer une bibliothèque numérique

Dans la suite de ma réflexion sur les outils de consultation de bibliothèque numérique, je me suis intéressée au problème du calcul de pertinence lorsqu’on veut interroger en même temps des données structurées (par exemple, des notices de catalogue) et du plein-texte.

C’est (encore) à la California Digital Library que j’ai trouvé la solution à mes problèmes, et en particulier dans le Melvyl recommender project.

Ce projet avait dans un premier temps pour objectif de montrer qu’on pouvait indexer des données structurées avec un outil de type "plein texte" (par opposition à une base de données). Pour cela, ils ont réuni quelques millions de notices, et les ont indexées grâce à XFT, un framework open source basé sur Lucene. Ca a donné un prototype assez intéressant, en particulier du point de vue de la FRBRisation des notices.

Dans une seconde phase, ils se sont demandé ce qui se passerait si à ces belles métadonnées ils ajoutaient de grosses quantités de plein texte dans des formats et des niveaux de qualité hétérogène. Ils ont donc injecté, en plus des notices, 18000 documents plein texte incluant des PDF, de l’OCR « brut » (non corrigé) et de la TEI (entre autres) et ont recommencé le petit jeu.

Le résultat de leurs cogitations, et les solutions pour faire une indexation réussie de matériel hétérogène et réparti dans une bibliothèque numérique, figure dans le rapport de la 2e phase. Le plus intéressant à mon sens est

  • la mise en place de la FRBRisation à la volée (ça fait classe de dire FRBRisation, mais en fait c’est une sorte de dédoublonnage amélioré)
  • le paramétrage de Lucene pour que l’algorithme de pertinence prenne en compte la qualité des métadonnées et évite « d’écraser » sous des tonnes de plein texte des résultats qui auraient une occurrence pertinente dans le titre ou l’auteur.

Ca peut paraître technique, mais il me semble difficile de croire qu’on va pouvoir numériser à tour de bras et OCRiser à tour de bras, sans se demander comment on va faire pour trouver quelque chose là-dedans à la fin. Même si on a l’intention d’utiliser un moteur du marché comme Fast, à l’exemple des allemands de Bielefield. Sinon il faudra s’en remettre à eux ;-)

Merci, mais alors merci, à FRBR blog qui n’imagine pas à quel point il m’a rendu service avec ce billet.