Visualiser des documents numériques

Ces derniers temps, on m’a demandé à plusieurs reprises de réfléchir à des maquettes de visualisation de documents numériques et j’ai aussi eu l’occasion de donner mon avis sur celle (entre autres) de l’OCA, Open library. Alors je crois qu’il faut que je m’explique sur ce concept d‘exemple inquiétant d’un phénomène de résistance des mentalités à la technologie qui n’est sans doute que transitoire – même si Got fait ça déjà si bien dans son Du livre électronique au wiki, que tout le monde a déjà cité mais qu’importe, un peu de pub, ça fait pas de mal.

Donc première chose, un visualiseur se conçoit de manière générique. A moins que la politique documentaire de votre projet de numérisation soit de sélectionner uniquement les in-8° imprimés en Times corps 12, il faut prévoir que vous allez devoir potentiellement donner accès à des trucs aussi affreusement divers que de des journaux (en colonnes et en très petits caractères sur des très grandes feuilles), des manuscrits et des livres anciens (en couleur pour que ce soit joli, et en détail pour que ce soit utilisable), des dictionnaires (écrits tout petit sur du papier tout fin), toutes sortes de feuillets dépliants de tableaux et autres trucs de taille non conventionnelle cachés entre deux pages, et pourquoi pas des photos, des estampes, des objets en 3D et même, horreur suprême, des plans qu’on ne peut pas lire si on ne peut pas les retourner à 180°.
Donc un bon visualiseur doit être capable de zoomer, de retourner l’image, de s’adapter à la taille du document pour la lecture à l’écran et pour l’impression : c’est un minimum, on peut faire toutes ces choses avec un livre.
Vous pouvez toujours contourner le problème en proposant une interface de consultation dédiée pour chaque type de document. C’est le modèle anglosaxon, à découvrir aux USA, en Angleterre ou encore en Ecosse.

Deuxièmement, un visualiseur doit être capable de gérer ce qu’on peut appeler le paratexte, et les métadonnées. Ce paratexte, c’est notamment la pagination de l’ouvrage, sa table des matières, sa notice… C’est plutôt pas mal dans la Bibliothèque virtuelle des humanistes.
Cela impose aussi d’être capable de gérer différentes versions d’un même document et là, ça se complique. Si le document est indexé en plein texte, cela veut dire qu’on en a une version textuelle. De plus en plus, on propose une version textuelle imparfaite, obtenue automatiquement par OCR, et "cachée" virtuellement derrière l’image, ce qui signifie qu’on enregistre toutes les coordonnées des mots sur la page pour être capable de savoir précisément sur quelle page et à quel endroit de la page se trouve un mot. C’est ce qui permet de souligner joliment (enfin chacun ses goûts) en jaune l’occurence trouvée, ou de placer un petit post-it entre les pages virtuelles de notre livre numérique.
Dans ce cas-là, on peut faire de la recherche plein-texte, mais on ne bénéficie pas de toutes les choses merveilleuses qu’on pourrait faire si on avait accès à cette version textuelle : la copier pour pouvoir la transcrire plus rapidement, jeter un oeil pour évaluer la pertinence de l’OCR et donc le risque de "silence" sur sa requête… On voit ça correctement mis en oeuvre dans Persée.
Si on a une version textuelle corrigée du texte en plus de l’image, une véritable numérisation en mode texte, ça se complique encore plus. Il faut imaginer les outils qui permettent de passer en souplesse d’une version à l’autre, suivant les besoins. Pour voir ce que ça donne quand c’est bien fait, rendez-vous sur les Cartulaires numérisés d’Ile de France.
Je ne parlerai même pas de la question de la visualisation d’une numérisation uniquement en mode texte, il y aurait trop à dire.

Enfin, en vrac (ou en confiture ;-) parmi les choses auxquelles il faut penser :

  • une référence simple et efficace, c’est à dire de belles URL propres, si possible sur chaque page du document numérisé
  • la gestion des documents multiples, les périodiques par exemple ; réfléchir comment on va passer d’un numéro au suivant
  • les possibilités d’impression et de téléchargement d’une page, de plusieurs pages
  • les outils d’aperçus ou de feuilletage, comme les vignettes ou les mosaïques
  • les documents complexes, qui mélangent de l’image et du son, ou du son et du texte, ou autre chose
  • l’accessibilité pour les personnes handicapées
  • etc.

Je ne parlerai pas non plus du problème de l’accès aux documents qui est en amont de la visualisation proprement dite, mais il y aurait beaucoup à dire.

Pour finir sur cette question essentielle de savoir ce qui me chiffonne dans les interfaces qui "imitent" le livre, comme Open library, c’est que d’emblée elles rejettent la spécificité du média numérique.
Le tourne-page, la visualisation en double page, les petits post-its et autres gadgets sont en fait très rassurant pour des gens qui sont peu familiarisés avec Internet, ce qui est le cas de la plupart des décideurs qui tiennent les cordons de la bourse. Mais en proposant une telle interface, on se prive des possibilités ouvertes par le nouveau média pour manipuler le document. On se prive également des possibilités ouvertes par l’ancien média, puisqu’en essayant de copier ce qui était performant sur le papier, on perd de la qualité et de la lisibilité sur l’écran.
Il ne nous reste plus qu’à télécharger l’ouvrage entier en PDF ce qui, à mes yeux, est certes une fonctionnalité indispensable mais aussi un constat d’échec sur l’appropriation du numérique.

Je ne suis pas résolument opposée à l’interface que propose Open library. Je trouve juste qu’elle met de manière excessive l’accent sur des fonctionnalités qui ne sont finalement que "jolies", aux dépends de ce qu’elle pourrait proposer d’efficace, de pertinent et de pratique. Mais je suis consciente que c’est peut-être moi qui ai tort.

Je vous recommande tout de même la lecture de deux articles sympathiques en relation plus ou moins avec ce sujet :

Préservation et droits des documents numériques

Rapidement avant que cela ne se perde dans les méandres de mes vacances qui commencent demain :-) voici quelques liens et nouvelles d’intérêt dans des domaines liés à la gestion des documents numériques.

Préservation

les archives nationales anglo-saxones annoncent une nouvelle version de Pronom, la base de données qui répertorie les formats. Ces formats reçoivent un identifiant pérenne, le PUID. On nous annonce aussi l’outil DROID qui permet de détecter le format d’un document en le confrontant aux informations stockées dans Pronom.
A quoi tout cela sert-il, me direz vous ; je ne vais pas entrer dans les détails, mais ça peut être très pratique quand on doit conserver sur le très long terme des documents numériques en masse qu’on n’a pas produit soi-même.
Tout ceci est très bien expliqué sur Ten Thousand Years blog.

Le projet ADAPT est un projet qui vise à construire les modules d’une architecture de préservation distribuée. Ca utilise les Web services et les technologies de grid computing : sounds good. Même source.

Enfin un peu de lecture : cet article repéré par Digitization 101 traite du modèle OAIS en essayant d’en donner une vision applicative ; en fait ça a l’air de parler beaucoup de LOCKSS – un système de préservation qui lui est basé sur du P2P !

Droits

On va nous aider à gérer nos droits numériques ! C’est du moins ce qu’on promet aux bibliothèques dans cet article. Et devinez qui nous offre cela ? Les EDItEUR ! (elle est bonne celle-là). Tout cela tourne autour du format de métadonnées ONIX.

Un petit dernier, encore via Digitization 101, il s’agit d’un rapport sur la meilleure façon d’acquérir des droits pour numériser des ouvrages. L’auteur semble être lié au Million Book project.

Me voilà prête pour les vacances, je passerai peut-être dans le coin mais sans doute pas pour raconter des choses sérieuses. Et sinon à vendredi prochain.

Chez OCA on repeint la façade

En fait ce n’est pas une façade, ni même une vitrine, mais carrément une vision que l’on peut trouver sur le site The open library.

Une vision d’un monde séduisant aux couleurs compassées, dans lequel on choisit un livre à la couleur de sa couverture, dans lequel les pages virtuelles des livres numériques se tournent comme en vrai, dans lequel rien ne vient polluer la lecture, ni menu, ni navigation intempestive. La recherche plein-texte ajoute des petits signets jaunes entre les pages, les métadonnées s’affichent sous la forme d’une fiche cartonnée, à l’ancienne, il y a même le trou pour le tringlage.

So librarian !

(Ca me fait penser à la ville de Spectre dans Big Fish de Tim Burton.)

Cette vision, c’est peut-être ce que nous offrira demain l’OCA, forte déjà de ses nouveaux partenaires.

Pour ceux qui n’auraient pas encore complètement saturé, je recommande la lecture de l’article de JM Salaün, qui fait bien le tour de la question "Google print" en la remettant dans son contexte, économique en particulier.
A noter aussi, le mémoire de Delphine Berroneau intitulé Les bibliothèques numériques. D’hier à aujourd’hui, la transmission d’un savoir. (master soutenu à Poitiers en 2005). Malgré un peu de légèreté concernant certains points de l’analyse, on y trouve une bonne définition de ce qu’est une bibliothèque numérique, et une pertinente mise en contexte au niveau francophone. (Via JB Soufron.)

RDF et les bibliothèques

Ce billet est une réponse au billet de Got . Son blog n’a pas de commentaires, et même s’il en avait, je ne serais pas allée raconter tout ça dedans ;-)

(…) RDF est sans aucun doute une solution prometteuse pour la diffusion, l’exploitation et l’échange des métadonnées, notamment sous la syntaxe XML (RDF/XML). C’est précisément sa raison d’être. Dans le cas de TEF, en particulier, il permettra à terme une exploitation multiple des notices TEF en l’état, sans obliger à les convertir dans un vocabulaire plus répandu comme Dublin Core notamment. Il faudra pour cela associer les notices TEF à un schéma RDF ou OWL qui précisera les relations sémantiques entre les éléments de TEF et, par exemple, les éléments du Dublin Core ou les propriétés des FRBR. Par ailleurs, formaliser TEF en RDF permettra d’expliciter la structure conceptuelle de TEF, notamment le fait qu’une notice TEF porte sur plusieurs entités (la thèse comme texte validé, les éditions, l’auteur, le jury…). Malgré ces atouts, investir dans une solution RDF est apparu comme prématuré. Etant donné les premiers usages prévisibles des notices TEF (échange de notices validées, conversion en DC-OA, en Unimarc), le supplément de complexité apporté par RDF/XML semble superflu tant que les applications et les données RDF ne sont pas plus répandues. En d’autres termes, la formalisation RDF de TEF est souhaitable, mais non prioritaire.

Ce paragraphe, tiré de la recommandation TEF, illustre parfaitement à mon sens la raison pour laquelle RDF n’est pas adopté (ni susceptible de l’être dans les prochaines années) dans les bibliothèques. Il y a toujours quelques précurseurs, comme il y en a eu pour XML, et leur rôle est d’expérimenter ces technologies et d’en faire des applications limitées. Ensuite, selon la pertinence de ces actions, l’industrie s’approprie la technologie ce qui lui donne une chance de se répandre vraiment. Or pour RDF, on n’en est pas encore là.

La réflexion sur RDF n’est pas absente des bibliothèques. Pour l’instant elle tourne essentiellement autour des FRBR, avec une réflexion sur la RDFisation du modèle (cf ce diaporama de Ian Davis), d’ailleurs très intéressante. Le schéma RDF pour les FRBR est proposé par Ian Davis et Richard Newman, ce dernier également auteur d’un projet sur les FRBR et l’annotation des images. Autre piste, la convergence avec le CRM-CIDOC, vaste ontologie du "cultural heritage" c’est à dire du patrimoine. Ceci donne à penser qu’il n’y a pas une manière canonique de RDFiser les FRBR, mais probablement plusieurs pistes possibles dont on peut espérer qu’une initiative sérieuse se dégagera.

D’autres axes de travail sont à noter même s’ils n’abordent pas de manière directe la question de RDF. Ainsi, les anglo-saxons sont en train de travailler sur une évolution du modèle AACR (équivalent plus ou moins de notre ISBD) vers quelque chose de nouveau qui s’appelle RDA. On ne me fera pas croire que la ressemblance des sigles est un hasard, même si RDF n’est écrit nulle part. Pour mémoire, les AACR – ISBD sont des normes qui décrivent le contenu de la description bibliographique et non sa structure ; c’est la sous-couche de MARC. En gros, l’ISBD dit que le titre c’est ce qui figure sur la page de titre, pas que ça doit être codé en 200. Le principe de RDA introduit quelques nouveautés intéressantes, présentées comme particulièrement pertinentes dans le domaine du numérique :

  • la prise en compte de métadonnées techniques en plus des métadonnées descriptives
  • la séparation nette de l’enregistrement des métadonnées et de leur présentation
  • on remarquera qu’en plus de la description et des accès, on a ajouté des relations (tiens donc).

En fait tout cela repose sur les FRBR et les FRAR (équivalent des FRBR pour les autorités).

Dans un autre genre, on lira dans ce très pertinent article du BBF sur Rameau et son évolution, la phrase suivante :

Ce que nous proposons en l’espèce revient, en fait, à construire des « ontologies » (au sens d’organisations structurées de la connaissance) par domaines et sous-domaines, au sein d’une liste d’autorités qui resterait commune, dont le caractère homogène serait préservé, et qui finirait par constituer elle-même une manière d’ontologie encyclopédique, en raison du réseau des liens sémantiques établi entre les vedettes …

A nouveau, on sent comme un appel à RDF (ou OWL), même s’il est ténu.

Donc finalement où est le problème ? Il n’est certainement pas dans la volonté. Des pistes de réflexion existent, mais la mise en oeuvre est une étape ultérieure et il n’y a pas d’application immédiate. L’autre problème c’est que 90% des bibliothécaires n’ont aucune idée de ce que sont les FRBR, et parmi le restant, beaucoup n’ont jamais entendu parler de RDF, ou n’ont aucune idée de ce que c’est et de comment ça marche.
En ce qui concerne la recherche bibliothéconomique et la naissance d’initiatives au sein d’institutions comme l’IFLA par exemple (en dehors de la veille pure, qu’on peut observer sur ce sujet au sein des conférences IFLA depuis 1999 environ), cela reste illusoire tant que RDF n’est pas une composante d’un applicatif immédiat.
Les geeks ont donc peut-être raison de pleurer en disant que RDF va disparaître faute d’être implémenté, mais ils ne réussiront pas à me faire culpabiliser (en tant que bibliothécaire). Notre métier nous impose un certain nombre de contraintes, parmi lesquelles je ne citerai que deux exemples : le poids de la masse documentaire accumulée depuis très très longtemps et en perpétuel accroissement, et celui de 5 siècles (au moins) de descriptions bibliographiques à rétroconvertir. Nous ne pouvons pas nous permettre d’implémenter quelque chose et de recommencer 5 ans plus tard, compte tenu de la quantité de données à manipuler et transformer à chaque fois. Ce poids de l’existant nous oblige à faire un choix entre deux voies :

  • soit développer des formats propres à notre communauté dont on sait qu’ils s’appliqueront à l’existant – c’est ce que nous avons fait avec MARC (je dis nous, mais j’étais même pas née, ou presque) – efficace mais c’est pas ce qu’on fait de plus interopérable,
  • soit fournir l’énorme effort de traîner notre machinerie derrière des formats existants, mais alors, il faut qu’ils aient fait leurs preuves, sinon l’investissement représente une prise de risque trop élevé – ce qui fera de nous des éternels mammouths traînards, mais cela vaut peut-être le sacrifice.

Pour que les bibliothèques puissent s’approprier RDF, il faudrait d’abord que RDF montre ce qu’il sait faire, prouve qu’il est essentiel pour nous aider à faire ce qu’on fait (ou ce qu’on veut faire), qu’il pourra être intégré dans des solutions industrielles par nos chers fournisseurs de SIGB (ou d’autres)… en bref, on n’apprivoise pas un mammouth juste avec des mots ;-) alors montrez-leur, montrons-leur.

PS : en relisant le billet de Got, je m’aperçois que je ne réponds pas vraiment à la question, et qu’on entre dans des débats sans fin du type l’oeuf ou la poule. Pour conclure, je ne remets pas en cause l’utilité de RDF pour représenter les métadonnées. Je dis juste que ce n’est pas évident à appliquer dans notre communauté.

L’âme de fonds

J’ai entendu il y a peu l’assertion suivante : le mauvais chercheur est celui qui sait ce qu’il va trouver. Or, dans le domaine du numérique, il est de plus en plus difficile de chercher au hasard : si on traduit cela en termes bibliothéconomiques, on pourrait se demander s’il faut savoir ce qu’on cherche pour avoir une chance de le trouver.

Dans la vénérable institution où j’ai été formée, on m’a appris à ne jurer que par le dépouillement systématique, et que seuls les cancres rédigent leur bibliographie en interrogeant les catalogues de bibliothèque par sujet. Avec l’expérience, j’ai appris à nuancer largement cette façon de penser, mais je continue de croire que dans certains cas, le dépouillement est la seule approche possible, non seulement dans les archives, mais aussi dans les bibliothèques. Parfois, c’est "l’âme de fonds" qui prime, même s’il ne s’agit pas d’un fonds à proprement parler : la collection, la façon dont elle s’est constituée, et son organisation sont les meilleurs atouts pour trouver les documents.

Les collections de manuscrits, dans les bibliothèques, sont de bons exemples. Les catalogues de manuscrits de la BnF (dont on peut consulter une version numérique ici) présentent une organisation systématique qui reflète l’entrée des documents dans la collection et qui est compliquée à appréhender. Si je vous parle des manuscrits français n° 20065-22884, cela n’est pas très évocateur. Pourtant, le catalogue qui les décrit est essentiel pour l’histoire du livre, car ces volumes contiennent les privilèges de librairie de l’époque moderne. Pour savoir cela, seules trois méthodes sont possibles : soit dépouiller systématiquement les catalogues de manuscrits de la BnF (bon courage !), soit dépouiller les index et les tables de ces catalogues, soit glaner cette information chez un autre historien (tâche qui sera peut-être facilitée désormais grâce au Figoblog et à Google ;-).

Un autre exemple, encore plus parlant, est celui de la recherche d’images. Dans un ouvrage récemment publié par le Getty sous le titre Introduction to Art Image Access (librement accessible en ligne), on peut lire d’intéressantes idées sur la façon dont on créée et on utilise les accès sujet quand on catalogue des images. Suivant la définition de l’historien de l’art Panofsky (Essais d’iconologie : thèmes humanistes dans l’art de la Renaissance, Paris : Gallimard, 1967) il y a trois niveaux possibles de description, qui sont, du plus objectif au plus subjectif :

  • la description : par exemple, une femme avec un bébé dans les bras
  • l’identification : par exemple, une Vierge à l’Enfant
  • l’interprétation : par exemple… ben non justement.

On ne peut pas prévoir toutes les interprétations possibles d’une image, même en faisant un gros effort pour se mettre à la place du chercheur. Ces interprétations sont innombrables, et elles peuvent changer dans le temps.

Alors, comment faire pour que les bons chercheurs n’en viennent pas à se distinguer par leur capacité à imaginer un maximum de mots-clef différents, plutôt que par leur travail ?
Pour moi, la solution se décline en trois :

  • inventer des interfaces pratiques qui permettent de parcourir, de butiner l’ensemble de la collection, ou au moins des ensembles significatifs, de préférence sous forme numérisée, sinon sous forme de descriptions bibliographiques
  • indexer les notices en plein texte (donc s’affranchir de la syntaxe pour la présentation des descripteurs) et s’appuyer sur des thésaurus modélisés pour le Web sous forme d’ontologies avec des relations
  • et enfin, laisser l’interprétation aux chercheurs eux-mêmes en leur donnant la possibilité de rattacher leur propre analyse (subjective) de l’image à celle (objective) que fournit la bibliothèque.

Tout ceci nous permet également de contourner le problème de la masse, qui interdit le plus souvent un catalogage détaillé à la pièce. L’enjeu est de trouver un équilibre entre classification, indexation et participation… et de numériser, bien sûr.

Merci à Ten Thousand Years Blog.

Alors, qui sont les gentils ?

On avait Google print, puis la bibliothèque numérique européenne. Tout à coup débarque un troisième larron et il devient de plus en plus difficile de s’y retrouver : qui a raison, qui a tort ? Qui sont les gentils et qui sont les méchants ? J’espère ici démystifier un peu cette surenchère autour des bibliothèques numériques en proposant une approche chronologique en même temps qu’un décorticage stratégique.

Google print ou l’approche médiatique

« Nous vous proposons d’utiliser nos ressources et nos compétences parce que nous voulons votre bien » : tel pourrait être le mot d’ordre de Google Print si ce n’était pas déjà « notre mission est d’organiser l’information du monde ». De coup médiatique en coup médiatique, Google propulse son projet de numérisation – au milieu de bien d’autres projets dont je ne parlerai pas ici. Analysons simplement l’offre de Google print.
D’abord, un projet Google print éditeur (GPPP) qui fait du bruit mais n’a rien de nouveau, l’idée ayant été lancée par Amazon avec un peu moins de verve, mais annoncée dans le NY Times dès le 21 juin 2003 pour un lancement à l’automne 2003. Rappelons que GPPP a été annoncé en octobre 2004 et lancé officiellement (avec une interface spécifique) en mai 2005. GPPP n’invente donc rien, pas même l’objectif : faire vendre, en faisant des liens depuis le texte cherchable des ouvrages vers des librairies en ligne.
Un peu plus tard (décembre 2004) Google print s’élargit avec le Google Print Library Project, GPLP de son petit nom, et provoque la polémique que l’on saiten France à partir de janvier, mais aussi tout un tas de réaction de l’autre côté de l’Atlantique, bibliothécaires dubitatifs et éditeurs réticents.
Ce qu’on peut dire sur ce projet, c’est que dès le départ, il essaye de faire vibrer la corde sensible en offrant de numériser gratuitement des masses de livres. C’est l’utopie de la reproduction universelle, décrit par F. Barbier dans le BBF (pardon, mais maintenant on ne fait plus de liens, on cite à l’ancienne, débrouillez-vous avec ça : Barbier, Frédéric, « Patrimoine, production, reproduction », BBF, 2004, n° 5, p. 11-20) – je cite pour vous simplifier quand même la vie :

D’une manière générale, l’expert, donc le bibliothécaire, devra être sensible aux utopies de la reproduction : l’utopie de la reproduction universelle (tous les textes seraient transposés sur un nouveau support), alors que les processus de translittération qui se sont déjà produits au cours de l’histoire ont toujours montré qu’ils s’accompagnaient de pertes plus ou moins considérables. L’utopie, aussi, de la reproduction « transparente » – laquelle rejoint, dans une certaine mesure, l’utopie de l’information « transparente ».

Donc finalement on est dans le domaine de l’utopie, et pas dans celui d’une bibliothèque numérique, Google print ne s’étant jamais assimilé de lui-même à une « digital library ». Mais le résultat est là : on peut chercher des livres dans Google (pas les consulter, ce qui prouve bien qu’on n’est pas dans une bibliothèque numérique).

Open Content Alliance ou l’approche pragmatique.

Voici maintenant qu’on nous annonce que Yahoo s’y met à son tour, avec un projet intitulé OCA. Si on creuse un peu, on trouve derrière ce projet non pas Yahoo, mais Brewster Khale et son Internet Archive. Brewster ne s’y était pas trompé sur la possibilité d’utiliser Google print comme tremplin. En farfouillant dans les archives des press release d’Internet Archive, on observe des remous vers décembre 2004 (comme par hasard) : un projet de numérisation de livres avec l’Université de Toronto qui utilise un « cool new page turning robot » (tiens tiens, ne serait-ce pas ce truc révolutionnaire qu’on a vu passer dans le Monde?) et un projet de open access text archive probablement lié d’une façon ou d’une autre au fameux million book project dont personne ne parle.
La clef est là : personne n’en parle. Or, rien n’appâte tant les médias que de voir deux titans se battre pour un lopin de gloire. L’idée d’associer Yahoo est donc excellente pour l’image du projet. En outre, OCA a laissé le temps de se décanter à l’opération Google, juste le temps nécessaire pour repérer ses principales erreurs et les éviter. OCA se proclame donc respectueux des droits d’auteurs, ce qui peut étonner quand on sait qu’Internet Archive est un des inventeurs de l’opt-out si décrié dans le projet Google print :

If the author or publisher of some part of the Archive does not want his or her work in our Collections, then we may remove that portion of the Collections without notice.(Vu ici).

Par ailleurs, OCA met l’accent sur l’accès ouvert en utilisant quelques mots-clef – catalogue, métadonnées, OAI, RSS, PDF – susceptibles d’amadouer les bibliothécaires pour être accepté dans le panthéon des bibliothèques numériques.
Le résultat : un joli site Web mais pas grand-chose de concret pour l’instant, il faut attendre de voir si le pragmatisme de ce projet, présent également dans la sélection des partenaires, lui permettra d’être à la pointe.

La bibliothèque numérique européenne ou l’approche méthodique

Entre les deux, on trouve l’initiative européenne. Un Comité de pilotage, une consultation, des appels à projet : autant de procédures qui paraissent lourdes et interminables, en tout cas, qui n’ont ni l’insouciance de Google print, ni le pragmatisme de OCA. Mais cette troisième initiative se donne pour objectif de travailler en profondeur, susciter des bonnes pratiques dans les bibliothèques elles-mêmes, avec une vision méthodique des moyens pour les faire entrer dans le numérique. Pour prendre un exemple, elle est la seule à se soucier de la préservation à long terme des documents numériques. Il s’agit donc de faire avancer le métier et cela ne peut se faire en un jour. On essaye de susciter une dynamique de réflexion et d’action sur le long terme, qui sera sans doute plus longue à démarrer que les deux projets précédents, mais qui permettra aux bibliothèques d’évoluer à leur rythme et avec leurs moyens (humains et financiers).
Le résultat : on le verra plus tard. Dans un an, deux ans, dix ans ? Son objectif n’est pas d’être immédiat mais d’être profondément enraciné dans les pratiques bibliothéconomiques.

Conclusion

Chacun de ces trois projets a sa dynamique et aussi ses défauts. Chacun pourrait être contesté s’il était tout seul, en situation de monopole. La bonne nouvelle, c’est que ces trois projets existent. Ils garantissent que les ressources de demain sur le Web seront réparties, diversifiées, nombreuses et adaptées à des publics différents. Et ça, c’est une excellente nouvelle.

Et vous, qu’en pensez-vous ?

La commission européenne nous demande notre avis sur le sujet épineux (et brûlant) des bibliothèques numériques. Elle nous propose plusieurs textes ainsi que le contexte qui a suscité ce déploiement d’énergie.

On a donc une communication datée du 30 septembre 2005 et un document de travail (uniquement en anglais) à commenter suivant cette grille d’analyse avant le 20 janvier 2006. Deux séries de questions concernent d’une part la numérisation et l’accessibilité des contenus, et d’autre part la préservation des documents numériques.

La contribution est ouverte à tous, aux organisations publiques et privées, et les commentaires seront publiés.

A vos plumes !

Merci à PluriTAL.

Les tomates ne sont pas juste des fruits

Voici un document qui utilise les fruits et les légumes pour expliquer la différence entre taxonomies, thésaurus, ontologies et ce genre de "choses". L’idée n’est pas mauvaise et on voit bien où l’auteur veut en venir.

J’en profite pour signaler un autre amusant document intitulé Fruit ou compétence ? capacité ou légume ?, dans lequel vous pourrez découvrir qu’un légume peut être un fruit, et qu’un fruit peut être un légume. Et en tout état de cause, une tomate peut être les deux, suivant la façon dont on la considère.

Enfin, sympathique détour par chez les architectes de l’information de Boxes and Arrows, où une petite biographie de Paul Otlet nous permettra de tout savoir sur l’invention de l’annotation collaborative des catalogues sur fiches avant le Web, ainsi que sur la CDU et la bibliothèque universelle.

Merci à Deakialli et à Librarian.net.

Numérisation, externalisation

La numérisation ça coûte cher, surtout en ressources humaines et en compétences ; et pour une bibliothèque se pose la question des économies qu’elle peut faire grâce à l’externalisation auprès d’un prestataire privé d’une partie des opérations. Cependant, peut-on tout externaliser ? Ceux qui se posent cette question devraient lire ce billet sur le blog Digitization 101.

Les trois principales choses qui ne peuvent pas être externalisées sont les suivantes.

  • La gestion du projet lui-même, c’est-à-dire en particulier les contacts avec le prestataire. Et bien sûr pour cela il faut connaître un minimum la technique.
  • La sélection documentaire. On pourrait l’externaliser, mais la probabilité d’être satisfait du résultat est faible.
  • Les specifications fonctionnelles. Une fois les ouvrages numérisés, qui peut décider quelles possibilités on donnera pour les consulter, ou comment sera organisé l’accès à ces documents ? Tout cela dépend fortement des objectifs du projet et du public cible. Difficile à externaliser, c’est trop important.

Alors qu’est-ce qui reste ? la technique pure : la numérisation elle-même, et la mise en place du système de consultation à partir d’un cahier des charges précis et exigeant. Il n’est pas raisonnable de faire l’économie du reste, la bibliothèque doit rester maître de son projet, de la sélection à la diffusion, afin de s’assurer que son public sera satisfait et que l’image du service sera bonne.

Toute ressemblance avec des faits ou des personnes ayant choisi de faire le contraire est purement fortuite.

L’imaginaire des bibliothèques dans les dessins animés

Je suis toujours effarée par l’image des bibliothèques qui est donnée aux enfants notamment dans les dessins animés récents.

L’un des plus marquants est Arthur et ses amis, un dessin animé américain où la bibliothèque apparaît à la fois comme une mine très précieuse, un lieu du quotidien, et quelque chose d’effrayant avec la phobie que les enfants peuvent avoir de la bibliothécaire à qui on rapporte les livres en retard ou s’ils sont abîmés.

Dans Mona le Vampire on retrouve un imaginaire plus classique avec la fameuse bibliothécaire à chignon prête à assassiner les enfants au premier chuchotement.

Et le nouveau truc pour filles qui marche, c’est Winx, une histoire à la Harry Potter version fées midinettes. On y retrouve l’image de la bibliothèque qui est déjà présente dans Harry Potter (dans le film c’est tourné à la Bodleian Library d’Oxford) : un temple du savoir, un peu effrayant, où l’on fait de mystérieuses et improbables découvertes au hasard des rayonnages. Sauf que dans Winx, on y ajoute la technologie : un droïde particulièrement utile pour les renseignements bibliographiques, surtout lorsque les livres sont en hauteur (cf image).
Et comme dans Harry Potter, on y retourne discrètement la nuit, pour consulter les livres interdits… et faire des photocopies en cachette !