Les catalogues sur le Web

Hier j’étais à Médial à Nancy pour une Journée d’études sur les catalogues nouvelle génération ».

Je ne sais pas si ce diaporama apportera quoi que ce soit sans les explications qui vont avec, mais en tout cas j’avais envie de le partager, ainsi que le plaisir que j’ai eu à faire cette présentation devant un public intéressé, attentif et indulgent.
J’en profite aussi pour remercier Françoise L. pour les quelques diapos que je lui ai empruntées et surtout pour ce qu’elle m’a apporté par ses réflexions.

Catalogues en ligne et qualité des données

Ce billet est un résumé du rapport d’OCLC : Online Catalogues : what users and librarians want, publié en avril 2009.

Le rapport d’OCLC porte sur la définition de la qualité des données du catalogue (de Worldcat en particulier, même si la plupart des conclusions peuvent être extrapolées), qui n’est pas la même pour les bibliothécaires et les utilisateurs. Ce sont les usages du Web qui obligent à repenser les objectifs et les modes de fonctionnement des catalogues.
Les priorités (en termes de qualité) des bibliothécaires sont le dédoublonnage et l’utilisation (correcte) des autorités. Celles des usagers sont l’accès aux ressources elles-mêmes (pas seulement à leur description : delivery vs. discovery) et la simplicité d’utilisation des outils leur permettant d’être autonomes.
Le rapport s’intéresse aussi aux besoins des bibliothécaires en tant que professionnels (acquéreurs, catalogueurs, etc.) et prend en compte l’accès à Worldcat par Z39.50.
Les méthodes utilisées pour l’enquête incluaient des focus groups, un questionnaire en ligne, et un questionnaire ciblé pour les professionnels.

Les résultats : ce que veulent les usagers

Pour l’usager, l’accès à la ressource (delivery) est aussi important, voire plus important que le fait d’être à même de la trouver (discovery). Donc ce qui compte c’est

  • de disposer de notices enrichies (résumés, tables des matières, etc. mais aussi des critiques, des notes…) surtout pour permettre d’évaluer si ce qu’on a trouvé correspond à ses besoins ;
  • le classement de résultats par pertinence doit être efficace et évident (on doit comprendre immédiatement pourquoi tel résultat sort en premier)
  • il faut faciliter par des liens directs le passage de la « trouvaille » (notice) à l’accès à la ressource (document).

La recherche par mots-clefs est « reine » mais la recherche avancée et les facettes sont essentielles pour s’y retrouver dans la masse. Les facettes permettent d’affiner sa recherche de manière guidée, sans avoir à parcourir d’interminables listes de résultats. Elles sont bien comprises et vite adoptées par les usagers. Toutefois pour que cela fonctionne, il faut que les données soient indexées de manière structurée.

Dans la liste des éléments de données essentiels pour trouver l’information, l’importance des localisations / données locales (par ex. informations sur la disponibilité) est à souligner.
En ce qui concerne les éléments qui permettent de décider si le livre est pertinent (couverture, résumé, critiques), l’usager souhaite en disposer dès la liste de résultats. Mais en ce qui concerne les critiques, les avis sont partagés avec un clivage assez traditionnel entre experts/chercheurs et étudiants/jeunes/amateurs : les premiers ne les jugent utiles que si elles sont « éditoriales » ou professionnelles, les seconds sont prêts à exploiter des critiques rédigées par d’autres usagers.

Du point de vue de la qualité des données, le besoin d’accéder facilement à des ressources en ligne directement à partir des catalogues de bibliothèque demandera probablement une croissance de l’investissement concernant la gestion des métadonnées de liens et l’interopérabilité avec des données externes.

Les résultats : ce que veulent les bibliothécaires

Comme les usagers, les bibliothécaires définissent la qualité en fonction de leurs objectifs : mais ce sont des objectifs professionnels de type renseignement bibliographique ou sélection /acquisition. Ils se retrouvent avec les utilisateurs sur le besoin d’enrichissement pour évaluer les ressources (plutôt des tables des matières et des résumés que des couvertures, sauf pour les bibliothèques publiques). Mais ils sont aussi obsédés par le dédoublonnage.

Pour le reste cela varie beaucoup selon les types de bibliothèques et les zones géographiques. Les bibliothèques spécialisées accordent une importance particulière à l’ajout des tables des matières et aux liens vers des ressources en ligne. Les bibliothèques publiques s’intéressent plutôt à la mise à niveau des notices abrégées.
Même chose pour les fonctions : les besoins varient de manière importante entre un catalogueur, un directeur de bibliothèque, un agent de service public, un acquéreur… En commun à toutes les fonctions on retrouve le dédoublonnage, les tables des matières, et les liens vers des ressources en ligne.
Les catalogueurs ont des demandes particulières visiblement liées à la récupération de notices dans Worldcat : plus de notices pour des ressources non anglophones, correction et amélioration des notices. Les directeurs de bibliothèque attachent plus d’importance à l’enrichissement par des résumés et des couvertures. Les bibliothécaires de services de référence bibliographique accordent de l’importance aux résumés et aux localisations.

Autres résultats intéressants

L’étude est quand même très orientée livres. Il faut attendre la page 47 du rapport pour voir apparaître autre chose que de l’imprimé ! (il y est dit que les bibliothécaires qui travaillent au contact direct du public sont conscients de l’importance, pour les usagers, d’avoir accès à des contenus enrichis et à des formats autres que l’imprimé, notamment audio et vidéo. Faut-il en déduire que tous les autres bibliothécaires ne s’intéressent qu’au livre ?)

Les éléments de données considérés comme importants par les bibliothécaires sont liés à la recherche de documents précis. Par exemple, la présence de l’ISBN est une priorité essentielle pour nombre d’entre eux. Quand on leur demande ce qu’ils amélioreraient dans les données du catalogue si on leur donnait une baguette magique, les bibliothécaires répondent qu’ils mettraient des ISBN partout ;-)

Alors que les exigences des bibliothécaires sont liés à leur conception traditionnelle des données structurées, les utilisateurs en bénéficient (recherche avancée, facettes) mais n’en ont pas conscience – ce qui les conduit à ne pas exprimer que c’est important pour eux. C’est aussi pour cela que les bibliothécaires accordent plus d’importance à la correction des données.

La perception des besoins des usagers par les bibliothécaires montre une prédominance de l’enrichissement (couvertures, tables des matières, résumés). L’accès aux ressources en ligne vient seulement après, alors que c’est le premier choix des usagers, suivi de l’augmentation des accès sujets.

Conclusions

Il y d’importantes différences dans la perception de la qualité du catalogue, entre les usagers et les bibliothécaires. Cette différence est due à des objectifs différents, mais aussi à un écart de compréhension quant au fonctionnement des données structurées.
Le fait que les usagers trouvent utile la recherche avancée suggère que l’investissement dans la structuration fine des données et l’utilisation de formes contrôlées pour les noms et les sujets représentent un vrai bénéfice pour les usagers, y compris dans les catalogues de demain.

En ce qui concerne les bibliothécaires, leurs différentes fonctions affectent leurs priorités concernant la qualité des données. Les catalogueurs et les acquéreurs valorisent la structure formelle du catalogue, par exemple les index par champs et les autorités, et reconnaissent son importance.

Noter qu’entre l’ouvrage de Charles Cutter Rules for a Dictionary Catalog et les RDA, les principes d’organisation de l’information sont toujours les mêmes. Mais il n’est pas clair que ces principes ont vraiment été testés au regard des attentes des usagers.
Sur le Web, les principaux acteurs ont adopté une démarche à l’opposé : on ne conceptualise que très peu, on procède par essai-erreur. C’est ce qui a permis le développement des principes de « user-centered design ».
Ce qu’il faut maintenant, c’est intégrer le meilleur des deux mondes, étendre la définition de ce que nous entendons par « qualité » dans les catalogues en ligne, et déterminer qui en est responsable. Pour cela, il faudra :

  • augmenter les liens vers des ressources en ligne ou au moins des extraits
  • enrichir l’information sur le contenu (« subject information ») mais pas en utilisant l’indexation matière traditionnelle
  • prendre la mesure du rôle critique des identifiants (ISBN, et autres).

Recommandations pour ceux qui définissent les besoins des futurs catalogues (oui, je me sens un peu visée là, pas vous ?) :

  • analyser, comparer et rééquilibrer l’investissement de la bibliothèque dans les tâches de catalogage, de fourniture de liens et d’enrichissement de notices
  • explorer, avec des partenaires (bibliothèques ou autres) les différents moyens d’obtenir des enrichissements (par ex. des API -> détour chez Karl)
  • encourager la R&D pour améliorer le classement de pertinence
  • accorder plus d’importance aux fonctions d’accès aux ressources
  • automatiser la création des métadonnées et limiter la redondance des tâches, au niveau des réseaux de bibliothèques, et avec d’autres partenaires.

La bibliothèque numérique dont j’ai rêvé

Ayant été hors jeu pendant plusieurs mois en 2008, c’est avec d’autant plus de confort que je m’accorde, pour une fois, un petit message publicitaire sur Gallica 2 et Europeana.

La nouvelle version de Gallica 2, mise en ligne à la mi-janvier, comporte plein de fonctionnalités que j’appelais de mes voeux depuis longtemps, comme des fils RSS paramétrables en fonction d’une recherche, un widget :

Vieux Paris [lithographie par J. Jacottet], Musée Carnavalet : [photographie de presse] / [Agence Rol]
Vieux Paris [lithographie par J. Jacottet], Musée Carnavalet : [photographie de presse] / [Agence Rol]

Mais on peut aussi consulter des documents sonores, et même écouter en synthèse vocale les livres dont la qualité d’OCR est suffisante (supérieure à 95%) par exemple on a bien ri en écoutant certains passages de celui-là.

Europeana, je ne rentrerai pas dans les détails, mais il faut entrer dans le Thought labs où se font les premières expérimentations avec Web sémantique inside
Les mésaventures d’Europeana à son lancement (et je le rappelle, même s’il y a 2 millions d’objets dedans, ce n’est qu’un prototype) me semblent montrer à quel point les nouvelles interfaces de bibliothèque numérique, et quelque chose d’aussi simple que la mise en valeur de vignettes, représentent un enjeu pour la visibilité des contenus culturels, au niveau national et au niveau européen.

Donc, un grand bravo, un grand merci à tous ceux qui ont dépensé une énergie conséquente sur ces projets durant ces dernières années. Il nous reste deux petites semaines pour dire adieu à l’ancienne version de Gallica. On sait qu’il y aurait encore beaucoup à faire, mais on a fait du chemin.

Le côté obscur de la force ?

La politique d’OCLC est assez décriée en ce moment, notamment autour de leur volonté de revoir les conditions d’utilisation des notices de Worldcat.

Noter qu’une première version de cette politique avait été diffusée, suscitant des réactions assez vives. Etait en particulier incriminée la politique du « champ 996 », un champ ajouté aux notices récupérées de Worldcat dans lequel on mentionne la provenance de la notice et un lien vers la OCLC policy.

Le jour même, après la polémique ci-dessus, OCLC retire son texte pour le retravailler. Quelques jours plus tard, il en publie une nouvelle version. On peut comparer les deux versions ici.
A noter :

  • une clarification (simplification, peut-être un peu radicale) des types de partenaires
  • le retrait de certaines phrases qui donnaient un aspect « fermé » à la politique (sans pour autant que cela change le fond des différentes clauses, à mon avis).

On voit bien qu’ils ont essayé de retirer tout ce qui pouvait avoir l’air provocant. Ce qui apparaissait comme des obligations devient des incitations (par ex. ne pas retirer la mention d’origine des notices).

OCLC utilise ensuite son blog pour entrer dans le débat et expliquer sa politique :

  • la politique actuelle date des années 80 et a besoin d’être révisée dans le contexte du Web
  • la mention de provenance avec le lien vers la politique n’est pas dans un esprit de « propriété », mais de « source »
  • OCLC s’est inspiré de la Creative Commons pour l’aspect commercial / non commercial
  • l’objectif de la politique est de protéger la communauté contre des usages commerciaux concurrentiels qui pourraient la détruire.

Ce qui n’empêche pas la polémique de continuer, comme on peut le voir sur cette liste de tous les billets de blog qui abordent ce sujet… Et il y en a qui s’amusent bien :

OCLC a affiché sa volonté de discuter avec la communauté en organisant une rencontre le 16 janvier, et en repoussant la mise en oeuvre de la nouvelle politique de plusieurs mois. Pour autant, ils se font épingler jusque dans la presse avec cet article du Guardian qui prétend expliquer « pourquoi vous ne trouvez pas de livres de bibliothèques dans votre moteur de recherche » par les visées protectionnistes d’OCLC, opposées à OpenLibrary et aux travaux de Talis, et même à la publication du catalogue Libris dans le Linked Data et aux travaux d’Ed Summers.

Ce dernier complète (et dépasse) l’analyse du Guardian dans un billet remarquablement complet et pertinent qui évoque la problématique du référencement et le fichier « robots.txt » de Worldcat.

Ça doit être la mode d’analyser les fichiers d’exclusion de robots aux Etats-Unis, hier c’était celui de la Maison Blanche, passé de 2400 lignes à d’exclusion à une seule… le 20 janvier 2009.

Quelques minutes plus tard : tiens, je viens d’apprendre que OCLC va absorber OAIster. Vous avez dit monopole ?

Catalogues de bibliothèques et développements agiles

Dans le dernier numéro de Code4Lib Journal, deux informaticiens de la bibliothèque nationale de Suède publient un article intitulé « User-Centred Design and Agile Development: Rebuilding the Swedish National Union Catalogue ».

Il s’agit d’un retour d’expérience sur l’adoption d’une méthode de développement dite « agile » pour le catalogue collectif des bibliothèques suédoises, Libris.
Il s’agissait de reconstruire le système de A à Z, en un an seulement, y compris la partie moteur de recherche. Pour favoriser l’innovation, ils ont opté pour mener en parallèle une conception orientée utilisateurs, s’appuyant sur des études d’usages, et un développement itératif de type agile (SCRUM).
Côté étude d’usages, ils ont d’abord fait un questionnaire, puis des focus groups conduits sur la base de scénarios d’utilisation, et enfin des tests d’usabilité sur un prototype et une interface en version beta. Tout ça nous est assez familier, mais ce qui est nouveau, c’est d’adapter la méthode de développement de façon à ce que les retours des utilisateurs puissent être pris en compte dans la réalisation informatique au fil de l’eau.

Dans une méthode agile, l’objectif est de prendre en compte le fait que les conditions et les objectifs peuvent évoluer avec le temps, même pendant que se déroule le projet.
Cela implique de favoriser :
– les individus et leurs interactions plutôt que les processus et les outils
– les logiciels qui fonctionnent plutôt qu’une documentation extensive
– la collaboration avec le client plutôt la négociation contractuelle
– de répondre au changement plutôt que suivre un plan pré-établi.

Comme le dit très justement l’article, ces principes, pour séduisants qu’ils sont surtout vus depuis les utilisateurs du futur système, posent un certain nombre de problèmes. D’abord, ils sont plus inconfortables pour les décideurs, qui perdent en visibilité sur les charges et les dates ce que le projet gagne en souplesse. Il est donc important d’obtenir dès le départ le soutien des décideurs sur la méthodologie, et de bien leur expliquer que même s’ils ne peuvent pas voir les spécifications, le produit final sera bon. D’autre part, le code ainsi construit peut au final s’avérer instable, ce qu’ils ont résolu dans le projet cité en planifiant une session de 3 semaines dédiée à une évaluation fine de la qualité du code.
Tout cela est en grande partie une question de confiance et un des facteurs décisifs du projet a été la mise à disposition d’un espace commun pour les développeurs, où se tenaient également les réunions de travail avec l’équipe projet.

En conclusion, leur retour d’expérience est plutôt bon sur la méthode agile, qui semble avoir évité bien des écueils. Ce qui leur manque c’est plutôt la documentation et le transfert de compétences entre développeurs. Et ils auraient voulu impliquer encore davantage les utilisateurs dans le processus.
Je ne voudrais pas paraphraser la conclusion, qui est classe, donc la voici :

Finally, we would like to conclude that working with user-centred design in combination with iterative development is a better, faster and cheaper way of software development, compared to traditional models. Better – the product being released at the end is a more up-to-date and bug-free version than had we worked with a more traditional approach. Faster – it is our conviction that with traditional methodology we would not have finished on time, or at least not with the same amount of features implemented. Cheaper – if the same number of people are able to do a better job in a shorter amount of time, it is a more cost-effective way of getting the job done.

Il faut reconnaître que le résultat est pas mal du tout : même en suédois, on arrive à s’en servir ce qui prouve que niveau usabilité, c’est plutôt bien fait !!! Enfin pour expérimenter moi aussi la méthode agile en ce moment, je dois dire que cela me paraît effectivement très prometteur pour les projets innovants en bibliothèque.
Merci à Pintini pour la référence.

… quand tu descendras du ciel…

Cette année, les bibliothèques ont récolté un drôle de cadeau de Noël. Il s’appelle RDA, pèse 35 méga octets (zippé) et mesure plusieurs centaines de pages (en pdf). Cette version finale est actuellement en cours de relecture, commentaires à rendre pour le 2 février.

Alors, à la demande expresse de Got qui n’arrête pas de me dire qu’on n’y comprend rien, je vais essayer de vous situer les RDA dans le paysage du catalogage.

Evidemment, c’est une vision extrêmement simplifiée, mais on peut quand même essayer de différencier 3 grandes étapes.
La première période (jusqu’aux années 1990) se caractérise par une approche d’informatisation pragmatique : on a mis l’accent sur la structure (MARC) au détriment des modèles.
La 2e période fait l’objet d’un effort de modélisation conceptuelle (FRBR). La structure MARC évolue vers XML, tandis que le Dublin Core se développe en parallèle (à la fois pour la structure, le modèle et le format).
Dans la 3e période, celle qui est devant nous, le modèle conceptuel reste valable. Le Dublin Core converge avec les structures et des bibliothèques (RDA vocabulary) et peut être exprimé en RDF. RDA remplace les anciennes règles de catalogage. L’utilisation de RDF rend inutile le besoin d’un format pour les notices (on exprime directement les données). Au niveau de l’encodage, le passage par XML facilite la conversion vers RDF.

Souvenez-vous, il y a 3 ans… en décembre 2005, le premier draft de RDA m’inspirait des réflexions pleines d’espoir, de FRBRisation et même de Web sémantique qui ne disait pas son nom.
Et bien aujourd’hui, il dit son nom : il suffit de voir ces deux présentations de Diane Hillmann (elles disent à peu près la même chose, mais de manière différente, j’ai une nette préférence pour la 2e) :

Si vous avez l’intention de relire les RDA pour envoyer des commentaires (c’est que vous travaillez probablement à la BnF ! sinon, envoyez-moi un CV ;-) cette version en ligne temporaire peut vous être utile, elle sera plus pratique que de naviguer dans les PDF ou dans la version papier.

A l’Est, du nouveau

La dernière lettre de la section Information Technology de l’IFLA contient deux articles intéressants.

Le premier relate l’expérience de la bibliothèque universitaire de Vilnius pour mettre en place des services 2.0. Ce que je trouve intéressant dans cet article c’est qu’il ne présente pas le versant technologique de la chose (dont on a soupé, franchement : des articles qui expliquent encore ce que sont les blogs et les wikis !). Il se positionne du point de vue de ce qui pose vraiment problème dans la mise en place d’un projet de bibliothèque 2.0 : la mobilisation des agents et l’accompagnement au changement. Ainsi, avant de mettre en place des services 2.0 dans la bibliothèque, ils ont sondé les personnels (et l’encadrement en particulier) sur leur niveau de compétences technologiques puis ont organisé un plan de formation approprié.
L’initiative a débouché sur un blog interne, un blog des guides touristiques de la bibliothèque, un compte delicious, et un wiki pour le personnel qui permet d’avoir toutes les informations sur le plan de formation en question.

Le second décrit l’initiative PIONER qui a permis à des bibliothèques numériques polonaises de créer une Fédération qui bénéficie de son portail. Un framework en open source, dLibra, a été développé pour être mis à disposition des bibliothèques locales pour mettre en ligne leurs fonds. Ensuite l’ensemble est fédéré via OAI-PMH.

Pour le contexte : la section IT de l’IFLA est là où se discutent les enjeux des évolutions technologiques pour les bibliothèques. On y parle beaucoup de « library 2.0 » en ce moment forcément, mais pas seulement : cet été à Montréal elle co-organisait avec la section Préservation et l’ICABS (qui s’occupe de normes bibliographiques) une conférence sur la préservation numérique pour laquelle avec plusieurs collègues nous avions écrit cet article (traduction française). L’été prochain, il y aura une pré-conférence satellite à Florence sur le thème « Emerging trends in technology: libraries between Web 2.0, semantic web and search technology »… et j’espère bien y aller !

xISSN

Vous connaissiez peut-être xISBN, un service de Worldcat qui contribue à la FRBRisation en renvoyant tous les ISBN en lien avec un ISBN donné. Ils ont créé un peu la même chose avec xISSN : un Web service qui sert à retrouver des ISSN en lien avec un ISSN donné.

Comme xISBN, il utilise les données de Worldcat pour relier entre eux les ISSN. On peut ainsi récupérer l’historique d’un titre e périodique ou de collection, les différentes formes, les différents supports, les métadonnées.

xISSN est un Web service, vous pouvez donc le tester en utilisant le formulaire de démo, mais ce n’est pas fait pour cela : en principe c’est fait pour être utilisé par une machine (par exemple, vous pourriez appeler ce service depuis votre catalogue pour créer des rebonds entre des notices).

Ils ont aussi développé un outil qui permet de visualiser tout cela sous forme d’un schéma, ce qui peut parfois se révéler utile quand on affaire à un périodique qui a changé de titre, fusionné avec un autre, rechangé de titre, changé de support, etc…

Exemple avec un changement de support :
http://worldcat.org/xissn/titlehistory?issn=0339-543X

Autre exemple (avec plus de circonvolutions dans l’histoire du titre) :
http://worldcat.org/xissn/titlehistory?issn=0151-914X

Pour l’instant je ne vois pas apparaître l’ISSN-L, ISSN de liaison dont l’objectif est justement de fédérer les ISSN pour les différents supports d’un même titre. Mais bon, si j’ai bien compris,
– l’ISSN-L est en fait choisi parmi les ISSN existants des différents supports (ce n’est pas un nouveau numéro)
– il ne gère que les supports coexistants, pas l’historique du titre.

Le service xISSN reste donc tout à fait utile !