Indexer une bibliothèque numérique

Dans la suite de ma réflexion sur les outils de consultation de bibliothèque numérique, je me suis intéressée au problème du calcul de pertinence lorsqu’on veut interroger en même temps des données structurées (par exemple, des notices de catalogue) et du plein-texte.

C’est (encore) à la California Digital Library que j’ai trouvé la solution à mes problèmes, et en particulier dans le Melvyl recommender project.

Ce projet avait dans un premier temps pour objectif de montrer qu’on pouvait indexer des données structurées avec un outil de type "plein texte" (par opposition à une base de données). Pour cela, ils ont réuni quelques millions de notices, et les ont indexées grâce à XFT, un framework open source basé sur Lucene. Ca a donné un prototype assez intéressant, en particulier du point de vue de la FRBRisation des notices.

Dans une seconde phase, ils se sont demandé ce qui se passerait si à ces belles métadonnées ils ajoutaient de grosses quantités de plein texte dans des formats et des niveaux de qualité hétérogène. Ils ont donc injecté, en plus des notices, 18000 documents plein texte incluant des PDF, de l’OCR « brut » (non corrigé) et de la TEI (entre autres) et ont recommencé le petit jeu.

Le résultat de leurs cogitations, et les solutions pour faire une indexation réussie de matériel hétérogène et réparti dans une bibliothèque numérique, figure dans le rapport de la 2e phase. Le plus intéressant à mon sens est

  • la mise en place de la FRBRisation à la volée (ça fait classe de dire FRBRisation, mais en fait c’est une sorte de dédoublonnage amélioré)
  • le paramétrage de Lucene pour que l’algorithme de pertinence prenne en compte la qualité des métadonnées et évite « d’écraser » sous des tonnes de plein texte des résultats qui auraient une occurrence pertinente dans le titre ou l’auteur.

Ca peut paraître technique, mais il me semble difficile de croire qu’on va pouvoir numériser à tour de bras et OCRiser à tour de bras, sans se demander comment on va faire pour trouver quelque chose là-dedans à la fin. Même si on a l’intention d’utiliser un moteur du marché comme Fast, à l’exemple des allemands de Bielefield. Sinon il faudra s’en remettre à eux ;-)

Merci, mais alors merci, à FRBR blog qui n’imagine pas à quel point il m’a rendu service avec ce billet.

Publicité

Il y a un livre dans mon moteur

Maintenant que l’on sait pourquoi il ne faut pas dire moteur de recherche, je vous propose de parler plutôt des outils de consultation des bibliothèques numériques.
Quelques particularités par rapport aux moteurs classiques du Web : quelle que soit leur génération, les outils de consultation des bibliothèques numériques

  • cherchent dans des collections organisées suivant une logique raisonnée (qu’on appelle la « politique documentaire »),
  • et les choses qu’ils cherchent sont décrites de façon structurée, au moins en partie (avec des métadonnées appelées également notices).

Sans renier la recherche plein-texte, qui peut se révéler utile dans certains cas, on peut observer que dans un contexte de données fortement structurées et organisées, même les spécialistes du plein-texte font reposer leurs outils de recherche sur les métadonnées, et parfois pas que les leurs.

Pour moi un outil de consultation de bibliothèque numérique devrait se constituer de plusieurs couches qui, loin de s’opposer, se combinent. Parmi elles

  • une couche de butinage (par carte, par thème ou par facettes)
  • une couche qui exploite toute la richesse des données structurées
  • une couche de fouille au coeur du texte.

Je suis de plus en plus convaincue que tout cela peut (doit ?) être intégré dans un ensemble cohérent, assez bien exprimé par l’idée d’outil de consultation.

Google print n’offre que la dernière couche, la plus basse (mais il le fait très bien).
Je me suis déjà très longuement étendue sur la première couche qui était une de mes préoccupations essentielles jusqu’à il y a peu.
Enfin pour celle du milieu, le meilleur outil actuellement c’est à mon avis Worldcat.

Worldcat réalise très bien la synthèse entre la recherche simple et les facettes. Dès qu’on a cherché quelque chose, on se trouve devant un choix d’affinage simple, clair et utile, sous forme de liens proposés dans le menu de gauche, liens qui sont regroupés en facettes.
La principale raison pour laquelle je suis si séduite par cette interface, c’est qu’elle est fluide pour l’utilisateur et qu’elle lui épargne la saisie : l’énergie que l’on déploie à remplir les cases d’une recherche par champs. Ce que fait l’utilisateur dans Worldcat, quand il clique sur certains de ces liens, revient à une recherche par champs, mais en s’évitant une saisie fastidieuse (et risquée).
Par ailleurs, comme ces liens sont construits sur des métadonnées structurées, et non sur des analyses automatiques de type clusters, on n’a pas l’impression d’être à moitié perdu mais on garde le contrôle de sa recherche.

Et la lecture devient écriture.

Redlightgreen R.I.P.

Tantôt, je vous ai parlé de Redlightgreen, l’interface "grand public" des catalogues de RLG. Maintenant que RLG et OCLC ont fusionné, Redlightgreen va fermer le 1er novembre 2006, au profit du tout neuf Worldcat, qui vient d’ouvrir au public une vraie interface (oui, sans être obligé de poser des questions abracadabrantesques à Google).

La FRBRisation, le classement par pertinence, les « facettes » pour affiner la recherche et le formattage de citation sont des fonctionnalités qui étaient développées dans les deux catalogues.

Il y a un autre truc très important, c’est que ces deux catalogues sont adressables : on peut faire un lien pérenne vers une notice. Enfin, pérenne, jusqu’au jour où le catalogue est supprimé.

Il vous reste un peu moins de deux mois pour profiter des jolies couleurs de Redlightgreen. Ensuite tout sera fondu dans l’unique bleu worldcatien.

Si cela vous énerve, vous pouvez aussi lire les récriminations de Librarian.net sur les ratés de Worldcat, et sur le "décalage" des gens d’OCLC par rapport aux réalités du terrain (là je n’ai pas grand chose à leur envier je le reconnais).

Sinon vous pouvez aussi vous énerver contre Google, un sport très prisé ces derniers temps.

Questions existentielles de la vie

Faisons un jeu.
Il s’agit de répondre en le moins de temps possible à trois questions essentielles de la vie :

  • pourquoi appelle-t-on l’inspection générale de la police « boeuf carotte » ?
  • qu’est-ce que la classification Coda ?
  • pourquoi le pingouin de Linux s’appelle-t-il Tux ?

Les outils autorisés sont Google et Yahoo. Le but du jeu est bien sûr d’avoir la réponse dans les trois premiers résultats.

Les boeuf-carotte résistent : bien sûr, il faut se débarrasser des bruyantes recettes de cuisine (et les opérateurs booléens sont très peu efficaces, il faut bien le dire). J’ai fini, après de nombreux tâtonnements, par formuler ma requête de la manière suivante : "boeuf carotte pourquoi police" (presque équivalent à "boeuf carotte police" mais pas tout à fait).
Sur Google, je fais d’abord chou-blanc, puis après avoir rajouté un fatidique tiret (entre boeuf et carotte) je trouve quelque chose. Le premier lien (ABC de la langue française) est prometteur mais m’oblige à farfouiller longuement dans le site pour un résultat décevant. Le second m’apprend que les boeuf-carotte séviraient aussi dans les restaurants. Le troisième lien ne donne rien.
Sur Yahoo, le premier résultat ne donne rien, mais le deuxième m’envoie sur le Forum de l’Essor de la Gendarmerie Nationale où je trouve – beaucoup plus bas – une réponse à ma question (je ne dis pas que c’est la bonne réponse).
En y regardant de plus près, le premier lien de la première requête dans Google donnait la même réponse, mais rien dans la liste de résultats ne me permettait de l’imaginer.

Deuxième question : à la demande d’une lectrice je cherche des infos (rapides) sur la classification coda.
Google nous envoie sur les blogs : Bibliobsession (en fait, le fil RSS de Bibliobsession) et moi-même – sympa mais pas très utile. Il va aussi chercher une notice dans le répertoire du CCfr.
En premier résultat, Yahoo m’envoie sur un lien bizarre sans titre, mais un peu plus bas je trouve un court texte qui explique la classification coda et son application dans une bibliothèque parisienne.

Moralité :

  • les opérateurs booléens ne servent à rien, il vaut mieux additionner les mots pertinents que d’essayer de retrancher ceux qui ne le sont pas
  • il ne faut pas tenir compte de la présentation des résultats, et relancer la requête dans la page trouvée
  • yahoo propose une vision du monde très différente de celle de Google. Mais pas moins pertinente.

Et vous, vous savez pourquoi le pingouin de Linux s’appelle Tux ;-) ?

Changer les catalogues (suite) : l’exemple de RLG

Un bon exemple de ce que je disais l’autre jour au sujet des catalogues comme sources de données à réutiliser dans différentes interfaces, c’est le catalogue collectif de RLG. Celui-ci ne contient pas autant de notices que le catalogue collectif d’OCLC, mais surtout il est de nature différente puisqu’il regroupe, comme son nom l’indique, des collections de bibliothèques de recherche, et comme son nom ne l’indique pas, éventuellement d’autres institutions que des bibliothèques (RLG travaille beaucoup avec les archives et les musées, et inclut aussi des institutions de recherche, des marchands de livres, etc.). Tout cela représente plus de 130 millions de notices, mais beaucoup moins de titres car le principe est de ne pas dédoublonner les notices versées pour le même ouvrage par diverses institutions.

Ce catalogue collectif a plusieurs interfaces différentes :

  • une qui s’appelle Eureka, qui est une interface Web payante,
  • une qui s’appelle RLIN21 et qui est une interface de gestion destinées aux professionnels, pour créer et dériver des notices,
  • une interface Z3950 (machines uniquement, humains s’abstenir)
  • et enfin une interface publique, portant sur un sous-ensemble limité du catalogue, qui est gratuite et très particulière et porte le nom de RedLightGreen.

Bien sûr c’est cette dernière qui m’intéresse ici.

RedLightGreen s’adresse à des utilisateurs débutants, autant qu’on puisse être débutant dans un contexte universitaire / de recherche car vu la mission de RLG, il ne s’agit pas de s’adresser au grand public dans son ensemble. Comme il fallait prendre un sous-ensemble du catalogue, ils ont choisi les monographies (vous me direz, ça simplifie bien les choses, et c’est pas faux, mais c’est la vie).

Que va-t-on proposer à ces utilisateurs d’un genre particulier pour les aider à se sentir à leur aise dans un catalogue de bibliothèque ?

Tout d’abord, une recherche vraiment simple, une seule case, à la Google. La recherche avancée, à peine avancée, prévoit simplement de sélectionner un champ et de limiter par langue.

Deuxième cadeau, la pertinence. Il est trop rare que les catalogues de bibliothèque offrent un classement de pertinence sur les résultats ; or, avec une recherche simple par mots, c’est une fonctionnalité indispensable faute de quoi on est rapidement noyé sous le bruit et l’inutile.
Dans RedLightGreen, la pertinence est basée en partie sur un regroupement pseudo FRBRien des notices : cela signifie que pour une oeuvre qui a été rééditée ou traduite plusieurs fois, on ne présente qu’un seul résultat, précisant le nombre d’éditions. Ca paraît sybillin, mais c’est rare dans les catalogues. Les réflexions de Tom Hickey (OCLC) sur le ranking basé sur les FRBR sont à consulter pour aller plus loin sur cette question.
Ensuite, la pertinence repose sur le nombre de notices concernant une même oeuvre, donc le nombre de fois où l’ouvrage a été acquis et/ou catalogué par les différentes institutions participantes. Ceci n’est possible que si on a un beau catalogue collectif et que les notices ne sont pas dédoublonnées mais seulement regroupées.

Le troisième cadeau, ce sont les rebonds dans la marge de gauche.
Les rebonds "sujet" sont construits sur les vedettes matières, et eux-mêmes énéficient d’un ranking de pertinence : celles qui apparaissent sont les vedettes-matières le plus souvent attribuées aux ouvrages qui apparaissent dans la liste de résultats.
Donc non seulement on peut rebondir, mais en plus on a une visibilité sur l’indexation sujet ce qui devrait aider notre utilisateur débutant à se familiariser avec les systèmes d’indexation imbitables des bibliothèques.

Le quatrième cadeau ce sont les services.
On peut construire des requêtes sous forme de lien basé sur le titre, l’auteur ou l’ISBN. Les notices sont également adressables – on peut enregistrer leur URL et la réutiliser. Tout cela est expliqué dans la FAQ pour bibliothécaires.
Sur la page d’affichage des notices, on trouve des liens sans complexes vers Amazon et Google.
On peut créer un profil personnel (qui s’appelle tout simplement "your list") pour désigner ses bibliothèques préférées et y trouver les ouvrages, y compris si la bibliothèque en question n’alimente pas le catalogue de RLG.
Enfin on peut exporter les notices bibliographiques sous forme de référence propre à être incluse dans une bibliographie, avec différents format de citation qui semblent correspondre aux normes en vigueur dans quelques grandes universités, genre :

Mai 68.Wolinski, Cavanna, Cabu… et al. ; préf. de Cohn-Bendit. Paris: M. Lafon, 1998.

Bien sûr, cette interface n’est pas forcément suffisante pour un chercheur ou quelqu’un qui est en quête de quelque chose de précis – le public cible ordinaire de RLG. Il ne s’agit pas de l’interface unique de RLG Union Catalog, juste une interface, avec ses objectifs, et elle se donne les moyens pour les atteindre.
Moralité, c’est pas parce qu’on fait dans les catalogues de recherche et les données en dentelle qu’on doit éviter forcément de faire simple. Il faut juste savoir à qui on s’adresse, et comment.

Réflexion à compléter par les petites notes de Nicolas sur la question de l’extraction des données depuis le catalogue, et quels services construire sur cette extraction avec quels outils.

Changer les catalogues

Les bibliothécaires américains semblent être en train de constater qu’il y a un vrai problème avec les catalogues de bibliothèque actuels, et un sacré besoin d’évolution. Les rapports fleurissent sur le sujet, en voici deux :

J’avoue avoir été carrément déçue par le second. J’aurais peut-être dû lire attentivement les annexes plutôt que de me contenter de parcourir les recommandations, mais globalement, ce qui est proposé me paraît assez peu novateur. Faire de la recherche fédérée, mutualiser le catalogage, mieux intégrer les ressources électroniques, je ne vois pas bien ce qu’il y a de révolutionnaire là-dedans. Enfin le rapport ne cesse de faire référence à un modèle économique abscons suivant lequel il faudrait équilibrer les dépenses liées au catalogage et la « demande » des utilisateurs pour ce « produit ».

Le premier est un peu plus ouvert vers les usagers et comporte quelques idées innovantes apparemment un peu plus appronfondies. On y trouve par exemple des réflexions sur les différents formats de métadonnées, l’extraction automatique des descriptions, la recherche plein texte et l’utilisation des FRBR. Idées qui n’était pas absentes de celui de la LoC mais qui sont ici mieux développées.

Je m’attendais à voir des recommandations sur l’annotation des notices par les lecteurs en mode wiki et la mise en places des recommandations d’ouvrage à partir de ce qu’on à déjà consulté (à la Amazon). Apparemment, ce sujet est évoqué mais pas intégré dans les propositions d’évolution ; admettons qu’il est trop tôt.

Par contre, on continue de voir le catalogue comme un outil à la fois unique et ambivalent, LE lieu où l’on produit ET consulte les notices. Il y a là un problème : comment un tel produit intégré pourrait-il s’adapter aux innombrables usages possibles qui naissent et perdurent sur le Web ? Moi je verrais bien l’évolution du catalogue vers un statut de base "pivot", contenant des données en XML qu’on pourrait réutiliser à volonté, dans des applications adaptées aux différents types d’usagers.
Celui qui veut feuilleter, parcourir, découvrir au hasard devait pouvoir le faire. Celui qui veut améliorer le catalogue, donner son avis, devrait pouvoir le faire. Celui qui a une bibliographie de son prof et doit trouver rapidement la dernière édition d’un ouvrage courant dans la bibliothèque la plus proche devrait pouvoir le faire. Celui qui utilise Google parce qu’il ne sait pas que les bibliothèques existent devrait pouvoir tomber sur nos données. Celui qui cherche un truc précis et rare, même si c’est au bout du monde, devrait pouvoir le trouver très vite. Celui qui veut dépouiller intégralement un fonds ou une partie de collection devrait pouvoir le faire. Ce ne sont que quelques exemples.
Non, il n’y a pas un « consommateur » type du catalogue unique et indivisible. Il y a des usages, multiples, différents, et aucun outil miracle ne saura tous les contenter. Il faut des données fiables et souples, qu’on peut sortir, transformer, adapter, réutiliser. Pour moi c’est ça le futur du catalogue.

(Je me suis emportée, là, mais j’ai encore plein d’idées que je mettrai dans d’autres billets. Et vous ?)

Vous grokkez ?

Grokker est un outil de visualisation qui utilise Yahoo (et quelques autres sources) pour proposer une façon alternative de naviguer dans des résultats de recherche.

Ce qui est intéressant, c’est qu’on a une approche originale de la recherche d’information : sur une requête, l’outil propose différents points de vues, différentes façons d’aborder le mot recherché. Pour prendre un exemple, si on cherche des informations sur Paris, au lieu de bêtement trier les pages où le mot "Paris" apparaît le plus volontiers, il fait des recoupements et propose des liens commerciaux, des hôtels, des bulletins météo, des ressources sur la Tour Effeil, sur l’histoire de Paris, etc. On peut ensuite zoomer sur cette carte d’informations, explorer de plus près l’un des aspects, et aller jusqu’à une vignette et un descriptif des sites recensés.
Comparé à un moteur traditionnel, textuel, on va donc passer beaucoup plus de temps à explorer les résultats, et beaucoup moins à cliquer sur les sites pour voir ce qu’il y a dedans.
Gain de temps ? Cela reste à voir, notamment en fonction de la pertinence du terme recherché et de celle des outils qui vont proposer les rapprochements d’idées.

Pour évaluer l’intérêt d’avoir ces différents points de vue sur l’information, vous pouvez jouer avec le "grokker puzzle" et essayer de deviner la requête à partir des résultats de la recherche… (accès par le petit menu en bas de cette page)

Deux autres outils sympas pour montrer l’intérêt de la visualisation pour la recherche, ou plutôt, l’appréhension de certains types d’information :

  • Newsmap pour les actualités
  • Gnod pour la musique et les bouquins.

Et enfin un article, à l’usage des bibliothécaires, qui fait le point sur ce sujet dans Library Journal.

Archivegrid

Voici un étrange truc que nous annonce RLG, avec un peu de fanfare, pour 2006 : Archivegrid.

Il s’agit de mettre en ligne des ressources archivistiques internationales concernant les personnes, les groupes, les lieux et leur histoire en général, conçu un peu sur le modèle de RedLightGreen.

Comme son nom (et son logo) l’indique, Archivegrid sera quelque chose de plus qu’un portail ou un site fédéré ; un véritable "grid" avec beaucoup de partenaires et une impressionnante interface à facettes (??) dont on se demande ce qu’elle cache comme indexation sujet.

Bref un espèce de méta-inventaire d’archives, apparemment basé sur l’EAD mais pas seulement, qui imite (en mieux ?) les méta-catalogues de bibliothèques. Une future réjouissance pour les historiens. Pour la France on y trouve nos amis de la DAF.

Envie de participer ?

Merci à ResourceShelf.

Catalogue is not dead

Le nouveau BBF vient de sortir avec pour titre alléchant : "Mort et transfiguration des catalogues".

Je n’ai pas encore eu le temps de le lire, évidemment, et je ne l’aurai pas non plus ce week-end, hélas. Mais je pense que ce sera un grand moment. Au programme : la visualisation, le XML, les classifications, la recherche fédérée, le renseignement à distance, Google scholar, et même le livre ancien. Je m’en pâme d’avance.

J’en profite pour glisser au passage quelques liens thématiques…

Sur Urfist Info est signalée une initative de Thomson Gale pour offrir l’accès (ou plutôt, la recherche) aux revues qu’on peut lire dans les bibliothèques. Le portail, AccessMyLibrary, vous donne les références de l’article en vous précisant poliment : Read the rest of this article for free courtesy of your local library. Charming.

Kesako nous renvoie quand à lui vers une bibliothèque virtuelle privée, en fait des agrégats de blogs et d’autres ressources classées par thèmes, dont l’organisateur n’est autre que Marcus Zillman en personne. Je vois pas trop le rapport avec le sujet, ceci dit. Est-ce qu’en collant tout plein de blogs ensemble et en les classant par thèmes, on génère une bibliothèque (même privée) ? Le doute m’étreint.

Chez Karl on découvre un programme qui permet de gérer sa bibliothèque personnelle, lecteur de codes à barres intégré dans la webcam. C’est délire mais ça ne vaut pas une bonne classification Dewey dans son salon (en plus il faut être sous Mac).

Enfin du côté de chez Catalogablog on découvre CAT-OAI, un opac basé entièrement sur un entrepôt OAI. En fait le but est d’intégrer des entrepôts OAI dans un opac. A regarder de plus près.

Je vous souhaite un bon week-end, occupez-vous bien, lisez le BBF, cataloguez votre bibliothèque personnelle, intégrez-y des notices en OAI et des blogs, classez-la en Dewey, et je vous retrouve lundi pour de nouvelles aventures bibliothéconomiques.

Ordinateurs et bibliothèques

Les présentations de la conférence Computers in Libraries 2005 sont en ligne.

Il y en a un peu pour tous les goûts, je note par exemple :

  • le design d’interfaces pour la recherche fédérée
  • les blogs collaboratifs (retour d’expérience de LISnews)
  • les moteurs de recherche
  • les bibliothèques et la gestion de contenu
  • OpenURL
  • la visualisation de données
  • Google et le contrôle de l’information (sympa celui-là, dommage qu’il ne mentionne pas les extra-terrestres
  • XML et XSLT
  • l’OAI

Bon j’arrête. Si j’étais sympa j’aurais mis à chaque fois le lien vers les présentations mais bon, mettre des liens vers tous ces fichiers powerpoint, beuah.

Cela vaut le détour en tout cas.