Rapport de bugs

Suite au projet Chronicling America dont j’avais parlé tantôt, la Library of Congress a publié dans Dlib un article intitulé : Actualized Preservation Threats. Practical Lessons from Chronicling America tout à fait hallucinant. Cet article est en effet un don à la communauté des dévelopeurs de bibliothèques numériques : il énumère tous les ratés, bugs et autres erreurs humaines survenus pendant la mise en place de l’archivage des fichiers numériques.

Il s’agissait principalement de produire, en plus de la numérisation image et OCR, des fichiers au format METS, et de faire entrer le tout dans un entrepôt numérique sous Fedora.

Des plantages de disques durs, ça peut arriver à tout le monde. Des fichiers METS qui ont été validés mais contiennent encore des erreurs : que celui qui n’a jamais fait de XML leur jette la première balise. Par la suite ça devient plus croustillant : l’outil qui devait transformer les SIP en AIP (si vous ne me suivez plus, relisez votre OAIS), donc leur outil d’archivage, mettait un furieux désordre dans les balises et rendait les fichiers XML non valides. Mais le meilleur, c’est quand l’auteur de l’article confesse qu’il a lui-même supprimé pas mal de données sans le faire exprès à cause d’une fausse manipulation.

Avoir des petits problèmes de ce genre, ça arrive à tout le monde, mais faire un article rien que là-dessus dans une revue comme Dlib, il fallait oser : on leur dit merci, et que la force des bibliothèques numériques soit avec eux pour la suite.

Haro

Après presque 5 semaines de vacances, il va me falloir un peu de temps pour me remettre de ces émotions et remonter la longue file d’attente de la veille en retard (même si j’en ai purement et simplement abandonné une partie, d’ailleurs j’ai découvert à cette occasion qu’on ne pouvait pas avoir plus de 200 items dans un fil dans Bloglines…).

Au petit bonheur la chance, donc, voici un des trucs qui ont attiré mon attention dans ce grand dépouillement estival : les gens qui râlent avec une véhémence extraordinaire contre Google Books. Et pour une fois, avec des bonnes raisons, je veux dire, des raisons bibliothéconomiquement recevables.

L’article de Paul Duguid dans First Monday, pertinemment cité et même traduit par JM Salaün, nous rappelle les danger de la fameuse utopie de la reproduction absolue, du transfert complet de support.

Brewster Khlale (le papa d’Internet Archive) donne dans Library Journal une interview assassine qui dénonce l’adhésion des bibliothèques à un programme qui pèche par sa fermeture d’esprit. On verra s’il fait beaucoup mieux avec son méta- catalogue- universel- wiki- encyclopédie- bibliothèque- numérique, Open Library dont on peut voir pour l’instant une démo, sur lequel on peut lire cette interview d’Aaron Schwartz, et dont je reparlerai plus tard.

Pendant ce temps, Google signe avec Keio au Japon et Cornell aux Etats-Unis, entre deux réflexions sur les moldus et les hobbits.

Au fait, depuis octobre 2005, qu’est-ce qui a vraiment changé ?

La collection numérique dans l’espace

Un des gros problèmes avec le numérique, c’est l’absence totale de perception spatiale qu’on peut avoir en entrant dans la collection. Or nous autres êtres humains, nous avons besoin de nous représenter notre environnement, et le sens que nous utilisons le plus volontiers pour cela, c’est la  »vue ». Avoir une vue d’ensemble d’une collection numérique, ce n’est pas un gadget, c’est complètement essentiel pour permettre d’appréhender sa nature, son contenu, sa forme et son potentiel. Un formulaire de recherche est un outil pervers qui nous permet de voir l’arbre mais pas la forêt. Il contribue fortement à faire du catalogue un espace sans âme et d’une complexité décourageante.

La première possibilité pour rétablir la perception spatiale de la collection dans un univers numérique est d’utiliser la visualisation ou cartographie d’informations. Mais c’est très compliqué à mettre en place d’un point de vue fonctionnel à cause du manque d’habitude de manipulation de ces outils. Ils perturbent, ils dérangent et finalement quand on creuse un peu on tend à les vider de leur sens (comment on peut avoir cette idée-là et en quelques
séances de travail en arriver ?) Bref c’est pas mûr, et on ne sait même pas si les utilisateurs sont murs eux-mêmes, donc retour à la case départ.

Quand je cherche dans Yahoo et qu’il me répond qu’il y 442 000 figues sur le Web, même s’il m’est humainement et techniquement impossible de parcourir les 442 000 résultats j’ai une idée approximative de l’espace qu’occupent les figues dans le Web.
De façon approchante mais plus bibliothéconomique, on peut utiliser les classifications. Cela revient à montrer le nombre d’étagères de livres qu’il y a derrière une requête : non pas que nous espérions que les lecteurs soient capables de regarder chacun des « dos » qui se présentent à eux, mais cela peut leur permettre d’appréhender la collection. Plus celle-ci grossit, plus on s’approchera d’un phénomène semblable à celui des moteurs de recherche du Web : une indication approximative sur le nombre de livres qui se cachent derrière chaque entrée thématique.
Les classifications à facettes sont intéressantes parce qu’elles permettent de combiner des étagères ensembles pour obtenir un résultat plus petit, donc humainement perceptible. Mais sur de la numérisation de masse, même en combinant, on aura à la fin d’énormes étagères.
Non pas que ce soit un problème à mes yeux. Mais cela perturbe énormément certaines personnes de la profession, qui ne doivent pas être habituées à devoir faire le tri dans de grosses masses d’information.

Dans l’article sur l’arbre et la forêt que je citais au début, on nous propose un troisième outil : le text-mining. Le « clustering », la visualisation de relations sont des outils qui peuvent nous aider à avoir cette « perspective de haut niveau » sur la collection numérique.
Je ne résiste pas à l’envie de citer la partie de l’article qui dit qu’il vaut mieux être accompagné d’un professionnel de l’information pour s’engager sur la route du text-mining :
Information professionals are natural partners for text mining because of their existing skill sets. At the top of the list is their knowledge and experience with the “information highway” and their ability to place information tools in context. Furthermore, they are knowledgeable about available products and information-retrieval techniques. Good information professionals have a blend of analytical and creativity skills, are adept at problem solving, and excel at dealing with ambiguity. Finally, information professionals have developed excellent consultative and listening skills and the ability to adapt and try different approaches to problems.
Ca devrait faire plaisir à mon geek.

A la fin de l’article, il y a un encadré pour les bibliothécaires avec le jargon à prendre en main pour se mettre à niveau en text-mining : chers lecteurs, si vous y voyez des mots nouveaux, c’est que vous pouvez encore creuser pour explorer la mine.

Moteurs de recherche et données structurées

Il y a toujours un livre dans mon moteur.

Voyons ce qui se passe en Australie quand on travaille sur l’indexation des données structurées, en s’appuyant sur des fonctionnalités propres aux moteurs de recherche : lisons l’article Relevance ranking of results from MARC-based catalogues : from guidelines to implementation exploiting structured metadata par Alison Dellit et Tony Boston, bibliothèque nationale d’Australie, février 2007.

Il y est question de Libraries Australia, un genre de super catalogue collectif australien, dont l’objectif est de devenir aussi courant pour les Australiens que Google ou Amazon… a challenge.

Premier point : la pertinence. On a pris l’habitude de voir arriver en premier les résultats les plus intéressants. Contrairement aux bibliothécaires qui éprouvent le vertige des chiffres, les usagers ne remarquent même pas qu’on leur présente des milliers de résultats. Ils prennent les premiers.
Pour une bibliothèque ce n’est pas aussi anodin qu’on pourrait le croire de calculer la pertinence des résultats. On peut toutefois s’appuyer assez tranquillement sur les données structurées des notices bibliographiques pour ce faire :

Matches in the title, author and subject fields, and those fields which describe the format, nature or form of the item, are more important than general matches within the record.

Matches in multiples of the above fields are more important than matches in just one of those fields.

Et ainsi de suite.

Second point : les ensembles, regroupements, paquets de données en tout genre.
Partant du principe qu’il est difficile d’anticiper ce qu’un usager a vraiment voulu chercher en tapant sa requête, on va lui proposer plutôt de l’affiner après. Pour lui faciliter la tâche, on lui fait un certain nombre de propositions qui vont lui éviter d’avoir à saisir dans un formulaire compliqué le complément de sa question : juste quelques clics.
Ces propositions s’appuient, je vous le donne en mille, sur des données structurées. On affiche quelque chose qui ressemble à de la navigation à facettes, comme dans Worldcat.

Troisième point : recommander.
Une fois que notre lecteur a trouvé son bonheur, on lui en propose d’autres. Pour cela on utilise… des données structurées, oui, certes, mais également des tags, attribués par les utilisateurs.

Pour que tout ceci puisse marcher, il faut rassembler de grandes quantités de données structurées et s’appuyer sur des protocoles ouverts (comme SRU/SRW, ou Opensearch, cités dans l’article).
Le résultat : 48 millions de notices dans un prototype basé sur Lucène, qui classe les résultats, les FRBRise, propose du RSS, interroge Google books search, complète les requêtes par des recommandations, présente des facettes, classe en Dewey et extrait des mots-clefs. Voir ce que ça donne par exemple avec notre ami Newton. C’est remarquable, ça ressemble au rêve qu’on avait en faisant Europeana mais le temps nous a manqué, espérons qu’on le rattrapera.

Lorcan Dempsey aussi a lu cet article, et a aimé.

Presse U.S.

La Library of Congress a mis en ligne le site Chronicling America consacré aux journaux anciens.

C’est le fruit d’un projet qu’on suit depuis un moment, le NDNP (National digital newspaper program) – à ne pas confondre bien évidemment avec le NDIIPP qui, lui, porte sur la conservation numérique.

Le « plus » : bien sûr on peut chercher en plein texte dans ces journaux, mais surtout le visualiseur est carrément bluffant.

Le « moins » : cette espèce de granularité à la page. Evidemment avec la presse ça simplifie la vie, je suis bien placée pour le savoir, mais ça fait un peu bâclé.

Merci à 10KY blog.

Bibliothèques et Web sémantique : le projet VIAF

Le projet VIAF, Virtual International Authority File, est un projet d’OCLC research qui vise à l’origine à aligner des listes d’autorités (notamment sur les noms propres) en vue de constituer une base de référence internationale.

Les premiers à tester ont été la Library of Congress et la Deutsche Bibliothek, qui travaillaient donc à l’alignement de leurs thésaurus respectifs ainsi que c’était décrit ici (ppt) ou .

Dès le départ, le projet affichait des intentions intéressantes en termes d’utilisation des technologies du Web sémantique. Il était aussi question de choses plus traditionnelles mais sur lesquelles on se posait aussi des questions, comme l’utilisation de l’OAI pour échanger des notices d’autorités (alors que, soyons clair, à première vue ce n’est pas fait pour ça).
De plus, cela s’inscrivait dans la continuité de services intéressants offerts par OCLC autour des autorités comme Worldcat Identities qui est un bon exemple de ce qu’on peut obtenir en "faisant travailler les données" comme diraient Lorcan et ses amis.

Aujourd’hui, d’après cette communication prévue à l’IFLA 2007 à Durban, le projet s’élargit avec de nouveaux partenaires, et le discours se radicalise assez nettement autour de l’idée de Web sémantique : ce n’est plus présenté comme une possibilité éventuelle de seconde main, mais comme le coeur du projet. Un projet qui devrait aider les bibliothèques à être parmi les briques fondatrices du SemWeb en mettant à disposition leurs données avec de belles URI !

L’avenir nous dira s’il s’agit là de l’acte de naissance d’une nouvelle tendance en bibliothèque, une tendance d’ouverture sans complexe au Web sémantique, une tendance qui nous permettrait de tenir le pari de Yann

Vu avec d’autres com’ de l’IFLA, sur Resourceshelf.

Le bibliothécaire

Grave question pour un bibliothécaire que de savoir comment répondre en société à cette question anodine, "et toi, tu fais quoi dans la vie ?", question qui débouche inévitablement sur la suivante "ah bon, et c’est un métier, ça, de ranger des livres ?"

Moi-même il m’arrive assez souvent dans mon cadre familial de rencontrer des gens qui sont, disons, peu sensibilisés à l’utilité du métier de bibliothécaire et des bibliothèques en général ; pour eux ça doit être un peu comme les piscines, c’est sale et plein de pauvres et ils préfèrent avoir la leur chez eux parce qu’en plus ça fait assez joli.
J’ai toujours rêvé d’avoir une tirade extraordinaire à leur sortir sur mon métier et voilà que je la trouve, où ça, je vous le donne en mille, dans un livre.
La voici :

ELLE : Dites-moi ce que c’est, un bibliothécaire.

LUI : Une sorte de communisme, sans l’idéologie ou Marx ou toutes ces conneries. Notre métier, c’est de distribuer du savoir. Gracieusement. Entrez, s’il vous plaît, entrez, prenez un peu de savoir gratis, non, ce n’est pas plafonné, continuez, vous pouvez vous en gaver, non, ce n’est pas une arnaque, ce n’est pas un échantillon gratuit pour vous appâter et vous facturer plus tard, ou bien pour vous tapisser le cerveau de logos et de slogans. Un bibliothécaire n’a pas un statut social très élevé, et nous ne gagnons pas non plus beaucoup d’argent ; plus qu’un poète, d’accord, mais pas autant qu’un type qui sait bien faire la manche. Alors nos idéaux comptent beaucoup pour nous, et aussi l’amour des livres, l’amour du savoir, l’amour de la vérité et de la liberté d’information, le désir que les gens puissent découvrir les choses par eux-mêmes. Qu’ils puissent lire, oh, des histoires d’amour ou des romans policiers, ce qu’ils veulent. Et que les pauvres puissent avoir accès à Internet.

ELLE : Vous êtes un type bien.

En fait plus que d’apporter des réponses, ce roman fait extrêmement bien ce qu’un roman est censé faire, prendre la réalité et la tordre un tout petit peu, juste assez pour nous remplir d’un espoir rageur et d’une satisfaction vengeresse. Juste assez pour qu’on ait l’impression qu’à un rien près, nous vivons dans un monde ou les bibliothécaires sont essentiels à la vie et à la société, peuvent devenir des héros qui s’enfuient en sautant par la fenêtre et en volant un cheval, peuvent être aimés et craints comme s’ils faisaient un métier comme les autres. Mais pas assez pour empêcher Windows de planter juste au moment où on a besoin de lui.

On est d’accord, ce n’est pas un grand chef d’oeuvre, juste un polar ; mais un polar avec un bibliothécaire comme héros, on ne voit pas ça tous les jours.
Larry Beinhart, Le bibliothécaire. Paris : Gallimard, 2005.

Jeu-concours sur la préservation du numérique

Vous vous intéressez à la préservation du numérique ?
Vous êtes un geek (ou vous en avez un à portée de main) ?
Vous avez un peu de temps libre devant vous ?
Vous avez besoin d’un peu d’argent de poche (entre 500 et 3000 euros) ?

C’est peut-être le moment pour vous de participer au Digital Preservation Challenge proposé par le projet européen DPE sur la préservation numérique.
Le principe : on vous propose 6 scénarios dans lesquels vous aurez à récupérer des fichiers dans des formats plus ou moins exotiques et obsolètes, les analyser, trouver ou construire un migrateur ou un émulateur, et déterminer des stratégies de préservation scalables pour l’avenir. Chaque proposition sera évaluée non seulement en fonction du résultat obtenu, mais de la description des étapes qui ont permis d’y arriver (car comme chacun sait, préserver c’est avant tout savoir documenter). Depêchez-vous : vous avez jusqu’au 15 juillet.

L’idée de lancer un jeu concours est assez amusante et à mon avis c’est sympa d’essayer de créer un "buzz" autour d’un sujet aussi austère que la préservation des documents numériques. Comme l’objectif d’un projet européen est aussi d’amener à une prise de conscience (to raise awareness comme ils disent), je pense que ce genre d’initiatives ne peut qu’aider grandement.

Un seul regret : tous les scénarios sont orientés sur la récupération de fichiers plus ou moins bizarres, vieux ou corrompus. Moi qui suis focalisée sur les approches métier et l’aspect plutôt organisationnel de la chose, j’aurais aimé qu’on me propose un scénario moins geek, plutôt orienté sur les stratégies d’évaluation et la gestion des risques. En bref, un scénario qui montrerait que la préservation du numérique, cela peut être (c’est souvent) d’agir avant que les dégradations se produisent, et pas quand il est trop tard.

Si vous êtes dans le même cas que moi, vous pouvez vous consoler en candidatant pour une bourse de stage dans le cadre du programme d’échanges proposé par le même programme.

ELAG 2007 : « workshops »

Voici la suite du début.

A ELAG, les workshops se déroulent en parallèle, en plusieurs sessions sur plusieurs jours. On s’inscrit à un workshop et un seul, que l’on suit de bout en bout ; heureusement pour notre curiosité, tous les workshops font l’objet d’un rapport de 15 mn environ le dernier jour.

Universitat de Barcelona

Conformément au thème de la conférence (je le rapelle : library 2.0), la plupart des workshop avaient un thème très "2.0".
Ainsi, les discussions ont porté sur Amazon et Google, le eLearning en bibliothèque, la fourniture de documents, le tagging, les blogs et les wikis, etc. Tous ces workshops ont été présentés et discutés en même temps. L’idée générale était de les utiliser comme des boîtes à idées pour discuter toutes ces fonctions et émettre des recommandations plus ou moins symboliques suivant les groupes. J’ai noté quelques ressources intéressantes comme le service Books to Books qui permet aux bibliothèques de mettre facilement en place un service de numérisation à la demande.
Finalement, le plus intéressant (d’après les compte-rendus) était le workshop-titre : Library 2.0, what’s in a name dont le produit (car chaque workshop débouche sur un "outcome") était un blog, créé avant la conférence et alimenté durant les sessions de travail.
C’était amusant de voir ces bibliothécaires (d’un certain âge, il faut bien le reconnaître) s’émerveiller devant les pratiques des étudiants qui bloguent et fréquentent Second Life.

Trois workshops étaient un peu "hors sujet" : l’un tournait autour du prototype de Système de Gestion de Bibliothèque Numérique de DELOS, et un autre posait la question "pour ou contre" les logiciels open source (avec un seul participant du côté des détracteur des logiciels libres !).
Enfin je co-organisais le troisième, sur la préservation des contenus numériques. Ce workshop a été organisé en trois parties :

  • la présentation détaillée de la méthodologie DRAMBORA de gestion des risques par Seamus Ross
  • une réflexion autour du modèle OAIS et de son implémentation, par votre serviteuse
  • et enfin une discussion ouverte sur les stratégies de préservation, animée par une collègue de la KB (bibliothèque royale des Pays Bas).

Du point de vue de la préservation numérique, j’en retiendrai que l’état d’avancement des institutions, au niveau européen, est inégal. Certains sont encore bloqués sur la problématique du stockage, à savoir comment gérer dans le temps plusieurs tera octets de données. Certains n’avaient encore jamais, ou presque, entendu parler du modèle OAIS. D’autres étaient vraiment en avance, à la fois sur la réflexion et sur la mise en oeuvre. Une des idées intéressantes qui en sont sorties serait de créer un "OAIS lite" qui permette un premier accès plus facile aux concepts de la norme (l’idée venait de cet article).

Sur l’ensemble des workshops, c’est un exercice intéressant malgré son côté assez aléatoire (cela dépend vraiment sur qui on tombe, à la fois du côté de l’animateur et de celui des participants). Mais même si chaque workshop dure environ 6h en tout, les sessions sont tellement découpées qu’il est difficile d’aborder des sujets très diversifiés. J’ai été surprise de voir à quel point le temps passait vite.

D’une façon générale, ELAG est un bon endroit où prendre la température de ce qui se passe aujourd’hui dans les bibliothèques en Europe, où en est notre réflexion sur les technologies. C’est assez consensuel, on n’a pas l’impression d’avoir découvert des choses très innovantes ou lancé de grandes idées. C’est plutôt un moment de mise en commun, avec toute la richesse que cela peut impliquer.

Ainsi se termina ELAG, sur une note d’ouverture puisque l’organisation de la conférence devrait évoluer l’année prochaine : les « progress reports » seront remplacés par quelque chose de plus mystérieux nommé « lightening talks », et certains workshops seront remplacés par des tutoriels.

Valoriser les collections numériques

Quelques méthodes intéressantes ont récemment surgi sur le Web pour valoriser des collections numériques. Cela n’a plus rien à voir avec la logique très construite et même, très bibliothéconomique, des expositions virtuelles ou dossiers documentaires qu’on a l’habitude de voir dans les bibliothèques numériques aussi bien francophones qu’anglo-saxonnes.

Du côté de la numérisation de masse, nous avons deux blogs : celui de Google books search et celui d’Internet Archive. Point commun de ces deux projets de numérisation : ce sont des entrepôts de documents, qui ne sont pas construits a priori dans une logique de politique documentaire. Dans ces conditions, la valorisation sous forme de blogs est appropriée. Elle se caractérise par la recherche de "perles", en relation ou non avec l’actualité, dans le gisement documentaire qui se trouve à disposition.

Du côté des bibliothèques, l’article de Dlib sur l’utilisation de Wikipedia pour valoriser les collections numériques a déjà été cité par Marlène : il s’agit de se positionner dans le flux des usages, d’aller au-devant des étudiants dans le site qu’ils consultent au lieu d’attendre qu’ils viennent à la bibliothèque numérique. Le projet de bibliothèque francophone dans Second Life (vu sur bib 2.0) s’inscrit à mes yeux dans la même logique, aller au-devant des usagers, là où ils se trouvent.

Ce que je trouve intéressant dans ces deux démarches, c’est qu’elles sont orientées vers la sérendipité et qu’elles obéissent à une temporalité différente, nouvelle. On ne construit plus les collections sur la politique documentaire. On construit la valorisation sur les collections, a posteriori. En même temps, on « pousse » cette valorisation vers les utilisateurs, soit par blog et donc par RSS, soit en se glissant dans le flux de leurs usages. Ils pourront ainsi rencontrer par hasard la bibliothèque, au lieu d’être forcés de s’y rendre comme par un passage obligé.

(PS : Je sais pas si vous avez remarqué, mais ce billet est parfaitement typique de la biblioblogosphère : il cite les copains et s’appuie sur des sources anglo-saxones, il parle de Google, il décrit des services qu’on n’a pas en France sans oser dire qu’on devrait les avoir, il est anonyme, prospectif, et se vautre dans la technologie. C’est fou, non ?)