La collection numérique dans l’espace

Un des gros problèmes avec le numérique, c’est l’absence totale de perception spatiale qu’on peut avoir en entrant dans la collection. Or nous autres êtres humains, nous avons besoin de nous représenter notre environnement, et le sens que nous utilisons le plus volontiers pour cela, c’est la  »vue ». Avoir une vue d’ensemble d’une collection numérique, ce n’est pas un gadget, c’est complètement essentiel pour permettre d’appréhender sa nature, son contenu, sa forme et son potentiel. Un formulaire de recherche est un outil pervers qui nous permet de voir l’arbre mais pas la forêt. Il contribue fortement à faire du catalogue un espace sans âme et d’une complexité décourageante.

La première possibilité pour rétablir la perception spatiale de la collection dans un univers numérique est d’utiliser la visualisation ou cartographie d’informations. Mais c’est très compliqué à mettre en place d’un point de vue fonctionnel à cause du manque d’habitude de manipulation de ces outils. Ils perturbent, ils dérangent et finalement quand on creuse un peu on tend à les vider de leur sens (comment on peut avoir cette idée-là et en quelques
séances de travail en arriver ?) Bref c’est pas mûr, et on ne sait même pas si les utilisateurs sont murs eux-mêmes, donc retour à la case départ.

Quand je cherche dans Yahoo et qu’il me répond qu’il y 442 000 figues sur le Web, même s’il m’est humainement et techniquement impossible de parcourir les 442 000 résultats j’ai une idée approximative de l’espace qu’occupent les figues dans le Web.
De façon approchante mais plus bibliothéconomique, on peut utiliser les classifications. Cela revient à montrer le nombre d’étagères de livres qu’il y a derrière une requête : non pas que nous espérions que les lecteurs soient capables de regarder chacun des « dos » qui se présentent à eux, mais cela peut leur permettre d’appréhender la collection. Plus celle-ci grossit, plus on s’approchera d’un phénomène semblable à celui des moteurs de recherche du Web : une indication approximative sur le nombre de livres qui se cachent derrière chaque entrée thématique.
Les classifications à facettes sont intéressantes parce qu’elles permettent de combiner des étagères ensembles pour obtenir un résultat plus petit, donc humainement perceptible. Mais sur de la numérisation de masse, même en combinant, on aura à la fin d’énormes étagères.
Non pas que ce soit un problème à mes yeux. Mais cela perturbe énormément certaines personnes de la profession, qui ne doivent pas être habituées à devoir faire le tri dans de grosses masses d’information.

Dans l’article sur l’arbre et la forêt que je citais au début, on nous propose un troisième outil : le text-mining. Le « clustering », la visualisation de relations sont des outils qui peuvent nous aider à avoir cette « perspective de haut niveau » sur la collection numérique.
Je ne résiste pas à l’envie de citer la partie de l’article qui dit qu’il vaut mieux être accompagné d’un professionnel de l’information pour s’engager sur la route du text-mining :
Information professionals are natural partners for text mining because of their existing skill sets. At the top of the list is their knowledge and experience with the “information highway” and their ability to place information tools in context. Furthermore, they are knowledgeable about available products and information-retrieval techniques. Good information professionals have a blend of analytical and creativity skills, are adept at problem solving, and excel at dealing with ambiguity. Finally, information professionals have developed excellent consultative and listening skills and the ability to adapt and try different approaches to problems.
Ca devrait faire plaisir à mon geek.

A la fin de l’article, il y a un encadré pour les bibliothécaires avec le jargon à prendre en main pour se mettre à niveau en text-mining : chers lecteurs, si vous y voyez des mots nouveaux, c’est que vous pouvez encore creuser pour explorer la mine.

Moteurs de recherche et données structurées

Il y a toujours un livre dans mon moteur.

Voyons ce qui se passe en Australie quand on travaille sur l’indexation des données structurées, en s’appuyant sur des fonctionnalités propres aux moteurs de recherche : lisons l’article Relevance ranking of results from MARC-based catalogues : from guidelines to implementation exploiting structured metadata par Alison Dellit et Tony Boston, bibliothèque nationale d’Australie, février 2007.

Il y est question de Libraries Australia, un genre de super catalogue collectif australien, dont l’objectif est de devenir aussi courant pour les Australiens que Google ou Amazon… a challenge.

Premier point : la pertinence. On a pris l’habitude de voir arriver en premier les résultats les plus intéressants. Contrairement aux bibliothécaires qui éprouvent le vertige des chiffres, les usagers ne remarquent même pas qu’on leur présente des milliers de résultats. Ils prennent les premiers.
Pour une bibliothèque ce n’est pas aussi anodin qu’on pourrait le croire de calculer la pertinence des résultats. On peut toutefois s’appuyer assez tranquillement sur les données structurées des notices bibliographiques pour ce faire :

Matches in the title, author and subject fields, and those fields which describe the format, nature or form of the item, are more important than general matches within the record.

Matches in multiples of the above fields are more important than matches in just one of those fields.

Et ainsi de suite.

Second point : les ensembles, regroupements, paquets de données en tout genre.
Partant du principe qu’il est difficile d’anticiper ce qu’un usager a vraiment voulu chercher en tapant sa requête, on va lui proposer plutôt de l’affiner après. Pour lui faciliter la tâche, on lui fait un certain nombre de propositions qui vont lui éviter d’avoir à saisir dans un formulaire compliqué le complément de sa question : juste quelques clics.
Ces propositions s’appuient, je vous le donne en mille, sur des données structurées. On affiche quelque chose qui ressemble à de la navigation à facettes, comme dans Worldcat.

Troisième point : recommander.
Une fois que notre lecteur a trouvé son bonheur, on lui en propose d’autres. Pour cela on utilise… des données structurées, oui, certes, mais également des tags, attribués par les utilisateurs.

Pour que tout ceci puisse marcher, il faut rassembler de grandes quantités de données structurées et s’appuyer sur des protocoles ouverts (comme SRU/SRW, ou Opensearch, cités dans l’article).
Le résultat : 48 millions de notices dans un prototype basé sur Lucène, qui classe les résultats, les FRBRise, propose du RSS, interroge Google books search, complète les requêtes par des recommandations, présente des facettes, classe en Dewey et extrait des mots-clefs. Voir ce que ça donne par exemple avec notre ami Newton. C’est remarquable, ça ressemble au rêve qu’on avait en faisant Europeana mais le temps nous a manqué, espérons qu’on le rattrapera.

Lorcan Dempsey aussi a lu cet article, et a aimé.

Retour sur Facebook

Après cette courte introduction, je vais essayer de re-bloguer. Il me reste exactement une semaine avant de vous quitter pour des cieux plus radieux, n’emportant dans ma besace que ce qui est nécessaire à ma survie, et une connexion internet n’en fera pas partie. Espérons que je trouve l’énergie d’écrire entre temps les quelques petits billets qui me trottent dans la tête.

D’abord je voudrais vous présenter plus en détail un des coupables de mon absence dans la blogosphère : Facebook. J’avais raconté que j’avais commencé à l’explorer ; en fait, après avoir réussi à convaincre Got d’essayer à son tour, nous nous sommes un peu pris au jeu – au point que le matin, j’ouvrais mon Facebook avant mon Bloglines, c’est dire.

Alors, quoi de si étourdissant dans ce nouveau truc hype ?

Un des trucs vraiment sympas, c’est le principe des "applications". L’interface de Facebook est conçue comme une plateforme, à laquelle on peut ajouter ou enlever des modules indépendants qui servent à faire toutes sortes de choses : gérer un agenda, afficher des fils RSS, chatter, dire ce que vous lisez en ce moment, jouer avec ses amis, et plein de trucs totalement inutiles (la dernière que j’ai installé s’apelle "Beeeeeeeer" et permet de mettre des notes à ses marques de bière préférées.)
Ces modules sont développés par les gens : si vous avez un site Web 2.0, vous aurez peut-être envie de développer une appli Facebook qui permette d’en faire quelque chose dans Facebook (n’importe quoi).
Toutes ces applications sont dotées d’une vie propre : dans Facebook, à chaque fois que vous cliquez quelque part, cela s’affiche dans votre profil, votre page d’accueil, et la page d’accueil de vos amis. Finalement, contrairement à un blog qui a l’air mort dès qu’on ne s’en occupe pas pendant 5 mn (hum), générer de l’activité dans Facebook demande très peu d’énergie, on a l’impression qu’il se passe toujours quelque chose. Le "status" qui vous permet d’écrire ce que vous êtes en train de faire en temps réel est une vraie fonctionnalité inutile et addictive, digne de Twitter.

Du côté des bibliothèques : Facebook par son usage, sa communauté, est un réseau profondément ancré dans un certain milieu, disons culturel et universitaire. Beaucoup d’étudiants, mais plutôt d’un niveau intellectuel élevé, alors que ceux qui sont les couches plus basses de a société vont se tourner plutôt vers MySpace (je ne sais plus où j’ai lu ça).
Comme les étudiants y sont, les profs et les bibliothécaires aussi. De fait, pour nous, ça devient intéressant pour les gens qui le fréquentent : allez je vais jeter quelques noms un peu connus, Gerry McKiernan, Lorcan Dempsey, Roy Tennant, etc. sont dans Facebook.
Ensuite ces gens discutent, occasionnellement de choses qui peuvent nous intéresser comme les bibliothèques 2.0, ce qu’on pourrait faire de bibliothéconomique dans Facebook, le Web sémantique
Certaines bibliothèques se sont lancées et ont développé des applications ; j’en ai installé une qui s’appelle Digital Past et permet d’afficher dans Facebook une image piochée dans la bibliothèque numérique du même nom.
Côté Français, on a quelques groupes orientés bibliothèques dans Facebook, et c’est assez amusant : cela va des lecteurs mécontents de la BnF aux étudiants de Sciences Po qui souhaitent que l’on remplace les lampes de la bibliothèque par des lampes à UV. En passant par une intéressante discussion sur l’intérêt de poser sa carte de bibliothèque sur sa lampe avant d’aller aux toilettes à la BSG (je vous laisse découvrir).

Bien sûr, aucun des liens ci-dessus ne vous mènera nulle part si vous n’avez pas vous-même de compte Facebook : on arrive dans les inconvénients. Le réseau est quand même très fermé et replié sur lui-même : autant on peut faire entrer dans Facebook des choses qui se passent au-dehors, autant l’inverse est impossible.
Ce réseau nous met au coeur des problèmes de l’identité numérique et de son manque d’intimité, puisqu’il joue sur l’affectif (retrouver ses amis de la vraie vie, leur faire passer des infos en temps réel…) Certains pensent que Facebook aura bientôt plus de succès que Google, d’autre le craignent.

Enfin, en ce qui me concerne, je pense que Facebook est un jeu. Un peu comme Second Life, sans l’interface 3D, et avec une meilleure régluation des relations humaines "réelles" projetées dans le numérique, ce qui le rend plus intéressant (de mon humble point de vue). Comme tout jeu, et en particulier tout jeu qui se passe sur le Web, il n’est pas recommandé d’y faire n’importe quoi.

Pour en savoir plus sur Facebook, vous pouvez lire la série de billets de Pisani ou le blog d’Exalead (au milieu de plein d’autres). Si vous vous connectez à Facebook, je suis là.

PS : c’est pas la peine de mettre un commentaire pour dire que j’ai fait une faute dans le titre, c’est fait exprès parce que la dernière fois que j’ai mis un mot hype dans le titre d’un billet, je me suis retrouvée sur la 1e page de résultats de Google et j’ai dû payer des suppléments de bande passante jusqu’à ce que je le change.

L’avenir de l’OCR : l’HCR

« HCR » pourrait vouloir dire « human character recognition », eh oui, je vous présente aujourd’hui un projet révolutionnaire qui permet de faire de la reconnaissance automatique de caractères en utilisant… des gens.

Le projet reCAPTCHA est tout à fait emblématique du pragmatisme à l’américaine qui caractérise des projets comme Internet Archive. Il part d’un genre de syllogisme :

  • quand on numérise, on a du mal avec l’OCR parce que certains mots ne peuvent être reconnus que par des humains
  • sur le web, on utilise des mots qui ne peuvent être reconnus que par des humains pour faire barrage aux robots
  • on n’a qu’à utiliser les mêmes humains pour reconnaître les deux types de mots !

Donc voilà, on va proposer aux blogs et autres sites de ce genre d’utiliser comme antispam un captcha à deux mots : le premier, connu par l’ordinateur, permet de faire barrage aux robots, et le second est un mot extrait de la numérisation d’IA qu’on n’arrive pas à océriser. Si plusieurs utilisateurs "numérisent" le même mot, celui-ci est validé dans IA.

Amis blogueurs qui avez des problèmes de spam de commentaires (ce n’est pas mon cas parce que je suis sous Lodel, mais bon, ça va peut-être changer, enfin bref), faites une bonne action : utilisez un captcha reCaptcha. C’est gratuit, c’est un web service, c’est accessible et en plus, ça génère de la numérisation.

Merci à Dom, et aussi à Catalogablog.

Presse U.S.

La Library of Congress a mis en ligne le site Chronicling America consacré aux journaux anciens.

C’est le fruit d’un projet qu’on suit depuis un moment, le NDNP (National digital newspaper program) – à ne pas confondre bien évidemment avec le NDIIPP qui, lui, porte sur la conservation numérique.

Le « plus » : bien sûr on peut chercher en plein texte dans ces journaux, mais surtout le visualiseur est carrément bluffant.

Le « moins » : cette espèce de granularité à la page. Evidemment avec la presse ça simplifie la vie, je suis bien placée pour le savoir, mais ça fait un peu bâclé.

Merci à 10KY blog.

Livre dans ta Face

Du côté de nos amis biblioblogueurs anglosaxons, j’observe depuis quelques temps un certain "buzz" autour du réseau social Facebook. Un buzz à vocation bibliothéconomique, indéniablement ; d’ailleurs la première fois que j’en ai entendu parler ça devait être à ELAG.

En fait, je n’ai jamais été très branchée réseaux sociaux ; à part une courte expérience sur Ning dans la continuité des biblioblogs, je ne me suis jamais inscrite au moindre réseau auparavant. Donc voilà, Facebook, je tente ou plutôt, j’explore.

En fait ce qui a attiré mon attention sur Facebooks c’est un autre outil, Libguides. Il s’agit d’un système de publication qui permet de fabriquer facilement des descriptions de collections dans une style "2.0", comme par exemple ça : Finding Newspapers. Vous remarquerez le côté "humain" du bibliothécaire, dont on peut voir la photo à côté de son oeuvre et à qui on peut laisser un message même en temps réel : un service qui autant que je puisse en juger n’existe pas dans une bibliothèque de la vraie vie parce que 1. les bibliothécaires ne signent pas personnellement leurs outils de recherche et 2. la consultation de l’outil et la rencontre avec le bibliothécaire sont souvent des phénomènes asynchrones.

En outre, ce système de publication de guides est Facebook-proof, ce qui semble être un gros argument de vente aux States ; sans doute parce que l’utilisation de Facebook est assez naturelle chez les étudiants qui, dans Facebook, peuvent retrouver leur université, leurs copains et leurs profs en un clic en entrant leur adresse e-mail.

Pour nous bibliothécaires français, l’intérêt de Facebook reste très limité, nos universités et nos entreprises locales n’étant encore que faiblement représentées. Quant à Libguides, guère mieux parce que cela me semble assez éloigné de la façon dont on aborde la valorisation des collections chez nous. Bref rien de tout cela ne vaut un bon vieux blog ;-)

Merci à Peter Scott ainsi qu’à Matthieu pour les tuyaux donnés "in RL".

Bibliothèques et Web sémantique : le projet VIAF

Le projet VIAF, Virtual International Authority File, est un projet d’OCLC research qui vise à l’origine à aligner des listes d’autorités (notamment sur les noms propres) en vue de constituer une base de référence internationale.

Les premiers à tester ont été la Library of Congress et la Deutsche Bibliothek, qui travaillaient donc à l’alignement de leurs thésaurus respectifs ainsi que c’était décrit ici (ppt) ou .

Dès le départ, le projet affichait des intentions intéressantes en termes d’utilisation des technologies du Web sémantique. Il était aussi question de choses plus traditionnelles mais sur lesquelles on se posait aussi des questions, comme l’utilisation de l’OAI pour échanger des notices d’autorités (alors que, soyons clair, à première vue ce n’est pas fait pour ça).
De plus, cela s’inscrivait dans la continuité de services intéressants offerts par OCLC autour des autorités comme Worldcat Identities qui est un bon exemple de ce qu’on peut obtenir en "faisant travailler les données" comme diraient Lorcan et ses amis.

Aujourd’hui, d’après cette communication prévue à l’IFLA 2007 à Durban, le projet s’élargit avec de nouveaux partenaires, et le discours se radicalise assez nettement autour de l’idée de Web sémantique : ce n’est plus présenté comme une possibilité éventuelle de seconde main, mais comme le coeur du projet. Un projet qui devrait aider les bibliothèques à être parmi les briques fondatrices du SemWeb en mettant à disposition leurs données avec de belles URI !

L’avenir nous dira s’il s’agit là de l’acte de naissance d’une nouvelle tendance en bibliothèque, une tendance d’ouverture sans complexe au Web sémantique, une tendance qui nous permettrait de tenir le pari de Yann

Vu avec d’autres com’ de l’IFLA, sur Resourceshelf.

Le bibliothécaire

Grave question pour un bibliothécaire que de savoir comment répondre en société à cette question anodine, "et toi, tu fais quoi dans la vie ?", question qui débouche inévitablement sur la suivante "ah bon, et c’est un métier, ça, de ranger des livres ?"

Moi-même il m’arrive assez souvent dans mon cadre familial de rencontrer des gens qui sont, disons, peu sensibilisés à l’utilité du métier de bibliothécaire et des bibliothèques en général ; pour eux ça doit être un peu comme les piscines, c’est sale et plein de pauvres et ils préfèrent avoir la leur chez eux parce qu’en plus ça fait assez joli.
J’ai toujours rêvé d’avoir une tirade extraordinaire à leur sortir sur mon métier et voilà que je la trouve, où ça, je vous le donne en mille, dans un livre.
La voici :

ELLE : Dites-moi ce que c’est, un bibliothécaire.

LUI : Une sorte de communisme, sans l’idéologie ou Marx ou toutes ces conneries. Notre métier, c’est de distribuer du savoir. Gracieusement. Entrez, s’il vous plaît, entrez, prenez un peu de savoir gratis, non, ce n’est pas plafonné, continuez, vous pouvez vous en gaver, non, ce n’est pas une arnaque, ce n’est pas un échantillon gratuit pour vous appâter et vous facturer plus tard, ou bien pour vous tapisser le cerveau de logos et de slogans. Un bibliothécaire n’a pas un statut social très élevé, et nous ne gagnons pas non plus beaucoup d’argent ; plus qu’un poète, d’accord, mais pas autant qu’un type qui sait bien faire la manche. Alors nos idéaux comptent beaucoup pour nous, et aussi l’amour des livres, l’amour du savoir, l’amour de la vérité et de la liberté d’information, le désir que les gens puissent découvrir les choses par eux-mêmes. Qu’ils puissent lire, oh, des histoires d’amour ou des romans policiers, ce qu’ils veulent. Et que les pauvres puissent avoir accès à Internet.

ELLE : Vous êtes un type bien.

En fait plus que d’apporter des réponses, ce roman fait extrêmement bien ce qu’un roman est censé faire, prendre la réalité et la tordre un tout petit peu, juste assez pour nous remplir d’un espoir rageur et d’une satisfaction vengeresse. Juste assez pour qu’on ait l’impression qu’à un rien près, nous vivons dans un monde ou les bibliothécaires sont essentiels à la vie et à la société, peuvent devenir des héros qui s’enfuient en sautant par la fenêtre et en volant un cheval, peuvent être aimés et craints comme s’ils faisaient un métier comme les autres. Mais pas assez pour empêcher Windows de planter juste au moment où on a besoin de lui.

On est d’accord, ce n’est pas un grand chef d’oeuvre, juste un polar ; mais un polar avec un bibliothécaire comme héros, on ne voit pas ça tous les jours.
Larry Beinhart, Le bibliothécaire. Paris : Gallimard, 2005.

Jeu-concours sur la préservation du numérique

Vous vous intéressez à la préservation du numérique ?
Vous êtes un geek (ou vous en avez un à portée de main) ?
Vous avez un peu de temps libre devant vous ?
Vous avez besoin d’un peu d’argent de poche (entre 500 et 3000 euros) ?

C’est peut-être le moment pour vous de participer au Digital Preservation Challenge proposé par le projet européen DPE sur la préservation numérique.
Le principe : on vous propose 6 scénarios dans lesquels vous aurez à récupérer des fichiers dans des formats plus ou moins exotiques et obsolètes, les analyser, trouver ou construire un migrateur ou un émulateur, et déterminer des stratégies de préservation scalables pour l’avenir. Chaque proposition sera évaluée non seulement en fonction du résultat obtenu, mais de la description des étapes qui ont permis d’y arriver (car comme chacun sait, préserver c’est avant tout savoir documenter). Depêchez-vous : vous avez jusqu’au 15 juillet.

L’idée de lancer un jeu concours est assez amusante et à mon avis c’est sympa d’essayer de créer un "buzz" autour d’un sujet aussi austère que la préservation des documents numériques. Comme l’objectif d’un projet européen est aussi d’amener à une prise de conscience (to raise awareness comme ils disent), je pense que ce genre d’initiatives ne peut qu’aider grandement.

Un seul regret : tous les scénarios sont orientés sur la récupération de fichiers plus ou moins bizarres, vieux ou corrompus. Moi qui suis focalisée sur les approches métier et l’aspect plutôt organisationnel de la chose, j’aurais aimé qu’on me propose un scénario moins geek, plutôt orienté sur les stratégies d’évaluation et la gestion des risques. En bref, un scénario qui montrerait que la préservation du numérique, cela peut être (c’est souvent) d’agir avant que les dégradations se produisent, et pas quand il est trop tard.

Si vous êtes dans le même cas que moi, vous pouvez vous consoler en candidatant pour une bourse de stage dans le cadre du programme d’échanges proposé par le même programme.