LD4P : un « grand soir » pour les bibliothèques américaines ?

 

La semaine dernière, j’étais invitée par Stanford à participer, en tant qu’expert, à un atelier du projet LD4P (Linked Data For Production). Ce projet financé par la Mellon Foundation a pris la suite d’un précédent projet nommé LD4L (Linked data for Libraries) ; il s’agit cette fois d’une initiative conjointe de plusieurs grandes bibliothèques universitaires américaines (Stanford, Harvard, Cornell, Columbia, Princeton) et de la Library of Congress, qui vise à développer concrètement le catalogage « en linked data » pour reprendre leurs propres termes. L’objectif du meeting était de présenter les résultats du projet à ce jour et d’obtenir le retour de la communauté. Une bonne occasion pour moi de remettre à jour mes connaissances sur ce sujet et de mieux comprendre le positionnement des bibliothèques américaines dans la transition bibliographique aujourd’hui.

Le projet LD4P se découpe en fait en plusieurs sous-projets qu’on peut classer en trois catégories :
– ceux qui visent à développer l’ontologie Bibframe et ses extensions,
– ceux qui travaillent sur le processus de catalogage

– ceux qui travaillent sur les outils.

Souvenez-vous, Bibframe c’est ce standard dont l’ambition est de remplacer les formats MARC. Développé et maintenu par la Library of Congress, il est actuellement dans sa version 2.0. – cette nouvelle version parue en avril 2016 est d’ailleurs l’un des livrables du projet.

Comme je le soulignais déjà en 2014, Bibframe constitue un cadre assez générique pour la description de documents de bibliothèque. L’un des objectifs de LD4P est donc de compléter cet effort de modélisation afin de permettre son implémentation concrète, en commençant plutôt par des documents spécialisés (documents cartographiques et géographiques, livres rares, image animée, musique jouée etc.). Le présupposé est qu’il est préférable de partir de cas complexes qu’on pourra ensuite généraliser pour des documents plus simples, plutôt que de commencer par le livre et ensuite se retrouver en difficulté face aux documents spécialisés.
Ce travail a donné naissance à une version dérivée de Bibframe nommée Bibliotek-o ainsi qu’à plusieurs extensions pour les types de documents pré-cités. Il faut cependant noter que certains services, comme le réseau Library.link, utilisent encore d’anciennes versions de Bibframe (Bibframe 1.0 ou Bibframe lite).

Tout ceci débouche sur une prolifération de modèles plus ou moins divergents qui inquiètent les porteurs du projet, ceux-ci se demandant si on ne serait pas en train de constituer de nouveaux silos. Contrairement à ce que laissait espérer le web sémantique tel qu’on l’envisageait au départ, on en arrive à la conclusion qu’on est loin d’être débarrassés des problématiques de conversion, transformation et recopie de données.

Du côté des outils, ce n’est donc pas seulement la question du convertisseur MARC -> Bibframe ou de l’éditeur de données en RDF qui se pose, mais aussi celle de toute la galaxie des outils qui vont permettre de traiter, réconcilier, aligner, contrôler, enrichir, convertir, diffuser et exploiter ces données dans leur nouveau format qui se pose. Les partenaires du projet ont commencé à établir un registre des outils disponibles qui ont été évalués dans ce cadre.

Un des aspects les plus intéressants de LD4P est à mon avis le sous-projet « tracer bullets » qui ambitionne d’articuler plusieurs de ces outils pour démontrer la faisabilité d’une implémentation de bout en bout, pour un sous-ensemble de documents, d’un processus ou workflow basé sur RDF. C’est justement Stanford qui pilote ce sous-projet.
4 types de workflow de catalogage ont été identifiés :
– récupération et enrichissement de données provenant d’un éditeur
– création manuelle de données à l’unité
– dérivation depuis un réservoir type WorldCat
– récupération de données en masse.

Dans un premier temps, c’est le premier workflow qui a été exploré, grâce à une collaboration avec l’éditeur italien Casalini Libri. Stanford bénéficie d’un avantage par rapport aux bibliothèques qui disposent d’un catalogue intégré dont l’interface de consultation pour les usagers repose sur la même base que la production : leur système d’accès est distinct du système de production, il est basé sur le moteur de recherche SolR et le système Blacklight. Le projet « tracer bullet » consiste donc à récupérer les données de l’éditeur, les compléter notamment des liens aux autorités, les transformer de MARC à Bibframe et enfin les verser dans SolR pour l’accès. Il a ainsi été possible de démontrer qu’on pouvait « brancher » sur le système d’accès un nouveau système de production basé sur Bibframe, sans perte de qualité dans l’expérience utilisateur.

La dernière session de travail de ces deux jours était consacrée aux questions de gouvernance, d’engagement des communautés, de formation etc. J’ai participé aux discussions sur la formation, ce qui m’a permis de mesurer l’importance que semble avoir pris le web de données aux yeux des bibliothécaires américains : loin du postulat que je faisais en 2014 en disant qu’il ne me semblait pas utile que tous les bibliothécaires soient formés au RDF, aux ontologies et autres arcanes du web semantique, nos collègues d’outre Atlantique semblent considérer que ce sont là les bases de la profession que tout le monde devrait a minima connaître.

À l’heure où je suis pour ma part (avec mon complice des Petites Cases) plutôt dans une démarche consistant à replacer le web sémantique dans un horizon plus large des données de bibliothèques, cette place étant plus du côté de l’interopérabilité et du partage que de celui de la production, ce décalage m’a pour le moins étonnée. Est-il dû aux années d’expérience que nous avons acquise, en France, sur la gestion de données RDF en production ?

Il ne faut pas oublier que les bibliothèques américaines sont confrontées à une situation bien différente de la nôtre. Leur format, MARC21, ne contient pas de liens entre notices bibliographiques et notices d’autorité : le seul point de contact se fait à travers les « noms », formes figées retenues pour dénommer ces entités de façon normalisée. Cette absence de lien constitue un handicap majeur pour la transition vers des modèles de type FRBR et vers le web de données, d’où une urgence plus grande à changer. Et tant qu’à changer, autant passer directement au format « du futur » plutôt que de faire subir des évolutions majeures à un MARC vieux de cinquante ans.

Par ailleurs, la déconnexion plus importante entre les notices bibliographiques et les données d’autorité qui en résulte conduit à une vision du catalogue comme un réservoir de notices figées appartenant au passé. Phil Schreur, de Stanford, compare ainsi les réservoirs de notice MARC à une dette que nous devrons payer un jour : il nous propose de ne pas aggraver cette dette en créant de nouvelles notices en MARC, mais de commencer dès que possible à produire dans le format de demain, la question du paiement de la dette (ou de la migration de l’existant) étant temporairement remise à plus tard.

La situation est sans aucun doute bien différente pour des bibliothèques françaises qui disposent déjà de données liées, même si elles sont encodées en Intermarc ou en Unimarc plutôt qu’en RDF. Nos catalogues lient ainsi de façon très organique données bibliographique et d’autorité, production et accès, création de notices et gestion de données vivantes. Cet état de fait nous donne une certaine avance (qui sera sans doute notre retard de demain…) et nous permet d’envisager une transition bibliographique plus progressive et plus étalée dans le temps : comme le disait récemment une collègue, « Pas de grand soir, mais beaucoup de petits matins ».

2 réactions sur “LD4P : un « grand soir » pour les bibliothèques américaines ?

  1. Pingback: Reblog : les technos du Web sémantique ont-elles tenu leurs promesses ? | Figoblog

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.