Recherche fédérée

Vue sur Catalogablog, une petite bibliographie sur la recherche fédérée (metasearch en anglais).

Au passage, je signale qu’une BU française a mis en place un service de recherche fédérée avec MetaLib : il s’agit du SCD de Paris III et de son service Virtuose. Il donne accès au catalogue de la bibliothèque, à des bases de données et des revues en ligne (avec accès à distance aux documents pour les membres de l’université), et à d’autres outils gratuits comme Amazon par exemple.

En passant, une autre université parisienne, celle de Paris 5, propose un accès distant à ses ressources electroniques pour les étudiants.

Sympa comme initiatives.

Ce rêve bleu…

Dans le dernier Dlib qui vient de sortir, on peut lire un long article en forme d’appel à contribution, intitulé Search Engine Technology and Digital Libraries : Libraries Need to Discover the Academic Internet. Le titre l’annonce : il s’agit de capitaliser la technologie des moteurs de recherche, assez avancée (on avait remarqué), pour l’appliquer aux bibliothèques, numériques ou pas.

L’auteur défend l’idée qu’il serait dans les missions des bibliothèques aujourd’hui de donner à voir le Web « académique » (on dirait plutôt scientifique en français), non pas en répertoriant des sites Web, non pas en faisant de la recherche fédérée avec des métamoteurs dans des bases distribuées, non pas (même pas) en constituant des entrepôts de métadonnées grâce à l’OAI… mais en indexant.

Bref, un autre Google, mais… en mieux, bien sûr, puisqu’il n’indexerait que des ressources de qualité, duement validées, adaptées à la préservation à long-terme, et pourvues de métadonnées surpuissantes d’une qualité inégalée.

Ce moteur de recherche idéal, tenez-vous bien, il est à notre portée. Il suffirait que tous les bibliothécaires du monde se donnent la main…

Sérieusement. Que nous faudrait-il pour réaliser cette grande oeuvre bibliothéconomique ? Tout d’abord, une coopération internationale et des normes fiables et ouvertes, intéropérables ; ça, pas de problème, on sait très bien le faire. La preuve, toutes les bibliothèques du monde cataloguent en format MARC (lequel au fait, Unimarc ? Marc21 ? Intermarc ? Ibermarc ? UKmarc ?) Ensuite, il faudrait s’approprier les technologies actuelles des moteurs de recherche, faire immédiatement le grand bond de 6 ans qu’a parcouru le Web entre sa version « répertoriée  » et sa version « indexée ». Et aussi, pousser un peu le Web sémantique, et le Grid computing, qui ne sont pas encore tout à fait au point pour ce qu’on voudrait en faire. Enfin améliorer l’OAI, cette technique d’échange primitive. Et se faire de la pub, beaucoup de pub.

On s’étonne quand même de ne trouver qu’une ligne sur les moteurs de recherche libres comme mozdex ou Lucene, dont on attend de voir s’ils valent au fond vraiment quelque chose (entre temps, vous prendrez bien une petite solution propriétaire). On s’étonne aussi de ne pas entendre parler de Virtual Library, Vlib de son petit nom, un projet international d’accès au Web scientifique lancé par Tim Berners Lee lui-même, et qui a laissé derrière lui quelques intiatives vraiment intéressantes.

Ah, c’est bon de savoir que nous, bibliothécaires, nous détenons la Vérité, le Pouvoir et l’Avenir. Faîtes de beaux rêves.

Mise à jour :

Curiosités bibliothéconomiques

J’ai eu un vrai coup de coeur pour ce site en portugais (brésilien pour être précise), Diretório de curiosidades sobre Biblioteconomia, Documentação, Gestão e Ciência da Informação.

On y trouve une foule de ressources "non-officielles" sur la bibliothéconomie : des blogs, des citations (attention, powered by IFLA), des petites BD… c’est tout ce que j’aime, un peu de sérieux, beaucoup d’humour, et… partout de la bibliothéconomie.

Surtout ne vous laissez pas rebuter par le fait que le site soit en portugais. Il se traduit volontiers en un anglais à peu près compréhensible en un clic (grâce à Google), et il recense autant de ressources anglophones que portugaises ou espagnoles, et même un peu de français (merci à lui).

A ne pas manquer.

Catalogues et valeur ajoutée

Aller plus loin avec nos bons vieux catalogues et nos bonnes vieilles classifications, c’est possible. Voici encore deux projets qui le prouvent…

Catalog enrichment initative est un projet piloté par la Library of Congress dont l’objectif est de donner plus de visibilité aux documents hors ligne (aux livres, quoi). On peut se demander pourquoi nos catalogues de bibliothèques ne sont pas capable de fournir la même valeur ajoutée que, par exemple, Amazon. L’idée est d’enrichir nos notices bibliographiques superficielles et descriptives par des informations plus "profondes" telles que les tables des matières des ouvrages. On utiliserait des standards comme MODS, METS ou ONIX pour encapsuler les tables des matières dans les notices, notices qu’on partagerait ensuite dans la communauté bibliothéconomique internationale en utilisant l’OAI. Plus d’infos dans la colonne de Roy Tennant sur Library Journal.

Simile est un projet collaboratif, impliquant notamment le MIT et le W3C, dont l’objectif est d’améliorer l’intéropérabilité des métadonnées en utilisant le Web sémantique. Concrètement, il s’agit de créer des interfaces uniques pour accéder à des ressources hétérogènes, en utilisant RDF et les classifications à facettes pour y naviguer avec un taux élevé de serendipité (traduction peu heureuse mais y en a-t-il une autre…) On comprend bien les enjeux pour les bibliothèques et autres bases de documents numériques, grâce à ce powerpoint qui explique tout ça avec des petites îles, des ponts et de jolies copie d’écran. Très mignon et assez prometteur.

Merci à Catalogablog , deux fois.

Errol

Voici un petit outil qui s’agite depuis un moment dans un coin de mes marque-pages : Errol.

Errol est à la fois un projet pour créer des identifiants pérennes à partir de requêtes OAI, un outil de navigation dans des entrepôts OAI, et un générateur de valeur ajoutée : on peut par exemple créer le fil RSS d’un entrepôt OAI en utilisant la syntaxe suivante

« http://errol.oclc.org/ » + RepositoryIdentifier + « .rss »

A noter toutefois, le « OAI Viewer » ne fonctionne vraiment bien que sous IE, et il faut que l’entrepôt OAI de vos rêves soit enregistré dans leur répertoire pour que ça fonctionne. Mais sinon c’est pas mal.

Pour en savoir plus sur les implications profondes du projet, consulter les Powerpoint de son papa Jeff Young : ici et .

OpenURL : qu’est-ce que c’est ?

OpenURL est un protocole en cours de normalisation qui sert à créer des liens contextuels. Concrètement, il s’agit de lier des métadonnées (par exemple, les références bibliographiques d’un article) à la ressource elle-même (l’article en plein-texte).

Vous me direz, un protocole de métadonnées, très bien, on en a déjà qui fonctionnent parfaitement, OAI par exemple. Oui mais là, il ne s’agit pas d’un simple lien, mais d’un lien contextuel. Pour une ressource (toujours notre article) on connaît le contexte dans lequel elle est citée (la bibliographie qui la cite), décrite (les métadonnées de l’article et qui les a rédigées), utilisée (le lecteur qui la recherche et les droits dont il dispose), et la façon dont on utilise le protocole (quel résolveur, pour obtenir quel service) pour la lier à ce qu’elle décrit (l’article lui-même).

En fait, la norme OpenURL Framework se compose de trois choses

  • le ContextObject : le paquet de métadonnées qui contient les informations sur une ressource et son contexte
  • l’OpenURL proprement dit : un protocole de transport de ces paquets basé sur HTTP
  • le registry qui contient les spécifications des différents éléments constitutifs des ContextObjects et de l’OpenURL.

Qu’est-ce qu’un ContextObject ?

Il s’agit d’un paquet de métadonnées qui décrivent une ressource et son contexte :

  • les métadonnées elles-mêmes (referent)
  • leur source : qui a rédigé ces métadonnées (referrer)
  • l’objet qui contient l’objet référencé par les métadonnées, par exemple la bibliographie où est prise la citation (referring entity)
  • l’utilisateur qui demande le service (requester)

Plus au niveau du protocole lui-même :

  • l’adresse du résolveur de lien utilisé (resolver)
  • le type de service demandé par l’utilisateur, par exemple "obtenir le texte intégral de l’article" (service type entity).

Que peut-on mettre dedans ?

A l’origine, un ContextObject décrit une ressource bibliographique et son contexte. En réalité, on peut y mettre un peu ce qu’on veut… pourvu que les métadonnées soient dans le bon format.

Le format d’origine pour représenter les ContextObject d’appelle Key Encoded Value (KEV) Il repose sur des paires clef/valeur (par exemple : Nom=Paul).

Dans la deuxième version de la norme (OpenURL 1.0), on peut décrire les ContectObjects en XML, avec un schéma associé spécifique : le schéma XML ContextObject Format (CTX).

A cela s’ajoutent des métadonnées supplémentaires, que l’on peut soit inclure directement dans le ContextObject, soit référencer sous forme de lien (on donne alors l’adresse du schéma qu’elles suivent et l’adresse où on peut les trouver).

Les métadonnées stockées dans le ContextObject doivent suivre les formats de métadonnées autorisés, stockés dans le repository : en KEV on dispose de formats pour books / dissertation / journal / patent, et chacun de ces formats possède sa traduction en XML. En outre, pour le XML seulement, s’y ajoutent entre autres MARC21 et oai_dc.

Les métadonnées ajoutées sous forme de lien peuvent suivre n’importe quel schéma pourvu que celui-ci ait une adresse (URI) et qu’il soit dans le même langage que le ContextObject (soit KEV, soit XML, au choix).

Concrètement, comment ça marche ?

Sur cette question, j’ai été éclairée par le JC-blog et par un papier intitulé tout ce que vous avez toujours voulu savoir sur SFX sans oser le demander.
Les étapes sont les suivantes :

  • quelqu’un crée un ContextObject. Par exemple, un éditeur de revues en lignes comme Elzevier. Ou alors, une bibliothèque avec son catalogue.
  • le lecteur voit, à côté de la référence bibliographique, un bouton qui correspond à ce ContextObject.
  • le lecteur clique, aussitôt le ContextObject est envoyé sous forme de requête HTTP à un résolveur de lien, qui analyse les métadonnées, les droits de l’usager et le service demandé.
  • en fonction de ce qui a été spécifié pour l’interface, le résolveur trie les références auxquelles le lecteur peut avoir accès et écarte celles auxquelles il n’a pas accès.
  • en réponse, le lecteur reçoit une liste de liens correspondant à sa demande, par exemple l’article complet chez Elzevier + l’article dans une archive ouverte. Mais pas l’article chez un autre éditeur pour lequel sa bibliothèque n’est pas abonnée.

Mais alors, quelles différences entre OpenURL 0.1. et OpenURL 1.0 ?

OpenURL 0.1 a été créé sur la base d’une architecture développée par un logiciel résolveur de lien nommé SFX. C’est à partir de ce produit qu’a été développée la standardisation du protocole de liens contextuels dans le cadre d’OpenURL.

L’OpenURL 1.0. repose donc en quelque sorte sur un retour d’expérience de l’utilisation d’OpenURL 0.1. La norme ainsi élargie a été spécifiée par un document soumis à approbation par NISO de janvier à mars 2004.

Ce qu’OpenURL 1.0 apporte par rapport à 0.1 :

  • il intègre le XML
  • les notions de « requester », « referring entity » et « service type entity » qui n’étaient pas proprement spécifiées auparavant
  • il supporte plusieurs formats de métadonnées et de nombreux namespaces (parmi lesquels : DOI, identifiants OAI, URN, ISBN, ISSN …), et ce de manière extensible
  • la 2e partie de la norme intègre la spécification du repository qui contient les spécifications des formats de description des objets contextuels (KEV et XML) + les formats de métadonnées autorisés + les namespaces autorisés + les spécifications de l’encodage des caractères + les spécifications des protocoles de transport des données + les « communautés de profils » qui définissent un mode d’exploitation choisi de la norme (il y en 2, une compatible avec la version 0.1 qui utilise KVE, l’autre étendue qui utilise XML).

Il en résulte que OpenURL 1.0 est d’application potentiellement plus large que la précédente car rien ne spécifie que la ressource décrite doit obligatoirement être d’ordre bibliographique.

En conclusion, OpenURL permet à des résolveurs de liens de lier des métadonnées, pourvu qu’elles soient encodées dans un certain format, à des ressources paramétrées, en tenant compte des droits de l’utilisateur et d’autres paramètres éventuels.

L’application la plus évidente est l’interconnexion des bases de données bibliographiques avec les bases de journaux en ligne, qui se fait directement et de manière quasi transparente pour l’utilisateur, grâce à ce protocole. Mais avec la norme 1.0, cette fonctionnalité pourrait être étendue, et il y a d’autres idées à creuser : booster le catalogue, faire des passerelles avec un entrepôt OAI… que sais-je encore.

Ressources

La norme

Publications

Site Web

Classifications appliquées au Web sémantique

Rapidement, avant que ces ressources ne disparaissent sous la pile virtuelle de choses intéressantes que j’amasse en ce moment, voici deux sites intéressants pour les cliqueurs fous qui chercheraient des centaines de liens sur la classification de l’information pour le Web sémantique :

Merci à InfoDesign et à Michel Dumais.

De l’accès (et autres questions)

Le CLIR publie un ouvrage collectif sur les tendances qui affectent les bibliothèques, et en particulier la manière dont elles donnent accès aux ressources qui intéressent les chercheurs.

Access in the future tense rassemble six articles, qui abordent en fait aussi bien le problème de la préservation de l’information que celui de l’accès proprement dit (mais comme on le sait, ces deux notions sont aussi indissociables qu’antinomiques pour les bibliothèques…)

L’ouvrage est disponible librement, en texte ou en PDF, et on peut aussi le commander en papier pour 20$.

Moins accessible hélas, le numéro 39 (4e volume, 2004) de Journal of Library Administration est un numéro spécial sur l’accès (plus précisément : Improved Access to Information: Portals, Content Selection, and Digital Information). Il semble que les heureux suscripteurs d’un abonnement à ce journal se régaleront d’articles orientés usagers et services. Les autres se contenteront d’enrichir leur bibliographie.

Enfin, les lecteurs d’Outils Froids ont eu la joie de plonger à l’intérieur de l’esprit des utilisateurs de moteurs de recherche pour y découvrir comment ceux-ci s’orientent dans les listes de résultats. Utile et à mettre en perspective avec nos propres interfaces de recherche : de telles études pourraient bien apporter un coup mortel au mythe de la liste de réponses parfaite, sans bruit ni silence.

Métadonnées sémantiques pour les interfaces

Traditionnellement, les métadonnées servent à décrire une ressource, à l’indexer, à la retrouver, à l’identifier, éventuellement à la conserver et la partager. Les métadonnées ont à première vue un rôle austère dont l’utilisateur final se soucie comme d’une guigne.

Heureusement, pour ceux qui trouveraient cette situation ennuyeuse, déjà-vue et même dépassée, il y a le Web sémantique, qui réinvente le concept de métadonnée et surtout ce qu’on peut faire avec, en proposant de les utiliser pour générer des interfaces de navigation.

Ainsi, sur les Boîtes et flèches, on apprend comment gérer des taxonomies (pour les bibliothéconomes, je précise que ce sont des sortes de thésaurus hiérarchiques) et utiliser les métadonnées qui en découlent pour concevoir intelligemment la navigation d’un site.

Infodesign nous fait cadeau sans manières d’un powerpoint (plein d’animations rigolotes) sur les métadonnées. Le diaporama commence sans grande fanfare mais ça vaut le coup d’aller au moins jusqu’à la vue 15 pour découvrir le concept des classifications à facettes.

Lesquelles sont aussi abordées dans un document intitulé Is there a role for traditional knowledge organization systems in the digital age ? et qui explique pourquoi l’indexation plein texte, c’est très bien mais ça ne fait pas tout. Et comment le modèle de la classification à facettes est une preuve que nos bonnes vieilles méthodes d’indexation bibliothéconomique s’appliquent assez naturellement à l’environnement informatique. Merci Catalogablog.

Ce n’était qu’un tout petit aperçu de l’océan d’idées à creuser dans ce domaine, pour cet été, pendant qu’il fera chaud et qu’on se réfugiera loin de la pollution et de la canicule… devant nos petits écrans. Spécialement dédicacé à mon geek bien sûr.

Bibliothèques, enseignement et numérique

Allez, ce soir, pour une fois, passons la porte de la bibliothèque, et intéressons-nous à ce qu’il y a au-delà des frontières de l’immense territoire de la documentation : l’enseignement.

Les learning objects sont des sortes d’unités minimales de support de cours version numérique. Pour apprendre comment et pourquoi en fabriquer, lire le guide à l’usage des auteurs de learning objects signalé par notre Robin des Bois de l’information.

Pour comprendre le rapport que cela peut avoir avec les bibliothèques, il faudra mesurer l’étendue du chemin à parcourir avant d’atteindre l’interopérabilité entre informations bibliothéconomiques et environnements pédagogiques (vu chez Peter Suber).

Mais là, hein, va falloir du courage.