What is a lab ?

Mes pérégrinations autour du projet Corpus continuent (pour ceux qui n’auraient pas suivi les épisodes précédents, ils se trouvent ici et ). Les 13 et 14 septembre derniers, j’ai ainsi participé à une rencontre à la British Library sur le thème : « Building Library Labs« . Organisé par l’équipe du British Library Labs, ce séminaire a réuni plusieurs dizaines de bibliothécaires et chercheurs pour des ateliers de réflexion sur ce qu’est un « Lab » en particulier dans les bibliothèques nationales, à quoi ça sert, comment on le fait tourner et ce qu’on y fait.

Je serais bien en peine de résumer en détail les discussions très riches qui ont eu lieu lors de cette journée, mais parce qu’un joli dessin vaut mieux qu’un rapport de 150 pages (ou pas, enfin je vous laisse juger…) j’ai tenter de sketchnoter ce qui me semblait le plus important à retenir.

Pour transcrire tout ça en quelques mots : j’ai trouvé qu’il ressortait de ces journées une forme de consensus à la fois autour de l’approche proposée, de ses objectifs et de la définition de ce que peut être un « Lab » dans une bibliothèque nationale. En gros, toutes ces institutions investissent depuis 10 ans ou plus dans la constitution de collections numériques massives, et souhaitent à présenter développer des usages nouveaux de ces collections, en s’appuyant sur les possibilités ouvertes par l’outil informatique (genre TDM mais pas seulement).

Les bibliothèques nationales sont un peu différentes des bibliothèques universitaires : elles ne bénéficient pas toujours d’un bassin de population cible attribué (chercheurs et étudiants), mais par contre elles ont ces masses de données, plus ou moins accessibles, plus ou moins bien documentées, qui ne demandent qu’à rencontrer des usagers. Du coup, le public cible des « labs » n’est pas seulement composé de chercheurs, mais aussi d’artistes, d’entreprises, de développeurs, d’archivistes… et surtout, surtout, des bibliothécaires eux-mêmes : les collègues sont les premiers bénéficiaires du Lab.

Les composantes essentielles des Labs sont les données, qu’on cherche à diffuser de la manière la plus efficace possible, en les documentant et les assortissant d’exemples concrets. Le fait de proposer un site web comme point d’accès à tout cela est une première étape, voire dans certains cas un but en soi. Certains ont un lieu physique, d’autres non, mais tous organisent des événements, de différentes natures, essentiels pour faire communauté.

Une autre caractéristique majeure des Labs réside dans leur dimension expérimentale. Différents dispositifs, qu’il s’agisse d’appels à projets, de hackathons ou autres, conduisent à la création, en coopération entre bibliothécaires et chercheurs, de réalisations qui ne sont pas forcément vouées à durer. On s’autorise l’échec et on multiplie les outils et les compétences diverses pour réussir ces expérimentations sans avoir la pression des longs projets exigeants dont on a davantage l’habitude dans nos institutions.

Plusieurs bibliothèques pilotes en la matière, notamment la British Library et la KB aux Pays-Bas, ont raconté le « voyage » qui les a conduits où ils sont aujourd’hui. On a voyagé sur les routes de Grande-Bretagne avec le premier « roadshow » de nos collègues anglais, ri avec le créateur du premier et très basique site web de la bibliothèque néerlandaise. Et ensuite, on a tenté de mettre en commun nos approches dans un Google Doc gargantuesque qui devrait être transformé en livre dans les mois à venir. Vous pourrez aussi retrouver les vidéos sur la chaîne Youtube du BL Labs prochainement.

Côté BnF, le rapport d’Eleonora Moiraghi sur les besoins des usagers du futur service d’exploration des données propose des pistes de réflexion convergentes avec ces approches. Le carnet de recherche de la BnF relate les différents ateliers organisés dans le cadre du projet Corpus. Et le site API et données propose déjà une vue d’ensemble des données disponibles et des moyens d’y accéder.

Ma folle semaine embarquée dans la recherche

Je ne sais pas trop ce qui s’est passé avec mon agenda, j’ai dû avoir un bug dans la gestion des invitations, mais par un curieux hasard, faisant suite à ma présentation à Berlin en août, je me suis retrouvée à vivre une semaine presque entière immergée dans la problématique de la relation entre bibliothèques et chercheurs, abordée sous  différents angles. J’ai donc en gros raconté cinq fois la même chose en huit jours, ce dont je m’excuse auprès des collègues qui auraient assisté à plusieurs sessions, mais je crois que vous n’êtes pas très nombreux grâce au miracle de la géographie et à celui des silos institutionnels.

Tout a commencé vendredi 13 octobre à Francfort où, à l’occasion de la Foire du livre qui avait la France pour invité d’honneur, le CRL a organisé un symposium sur le thème « New Directions for Libraries, Scholars, and Partnerships: an International Symposium« . Rassemblant des bibliothécaires, surtout américains mais aussi originaires du monde entier, spécialisés dans les études de l’aire géographique romane, le symposium s’intéressait à l’évolution des services que les bibliothèques offrent aux chercheurs. Le terme de service, ici, n’est pas anodin : on évolue vers une logique moins centrée sur les collections et plus tournée vers les divers besoins que les chercheurs expriment : outils, méthodes, accompagnement, expertise, mais aussi numérisation et constitution de corpus numériques, négociation de licences d’accès à des ressources numériques, plans de gestion de données, etc. Le programme faisait une large place à divers exemples de projets mobilisant des technologies numériques et la session de posters était aussi remarquablement riche dans ce domaine.

Sautant dans un train tardif, je suis vite rentrée à Paris pour participer le samedi à la journée d’étude organisée par l’ADEMEC à l’Ecole des chartes, sur le thème « Humanités numériques et données patrimoniales : publics, réseaux, pratiques ». Je ne peux que souligner l’extraordinaire qualité de cette journée qui a été abondamment twittée et dont vous retrouverez le Storify ici et les captations vidéos là. J’en retiendrai tout particulièrement l’intervention conclusive de Paul Bertrand, qui a invité les institutions patrimoniales à inventer une critique externe de la donnée, permettant de la contextualiser et de la qualifier afin qu’elle devienne un objet d’étude et d’analyse maîtrisable et maîtrisé.

Retour à la maison le lundi pour un atelier ouvert que nous organisions avec des collègues du projet Corpus (special thanks to Jean-Philippe et Eleonora) et avec les chercheurs de l’équipe Giranium du CELSA, qui est notre équipe « compagnon » sur le projet cette année. L’atelier avait pour thème « Décrire, transcrire et diffuser un corpus documentaire hétérogène : méthode, formats, outils » et a permis à des équipes de chercheurs issues de différentes disciplines et travaillant sur des périodes  chronologiques parfois lointaines d’échanger sur leurs méthodes de travail communes dans le monde numérique. Nous vous préparons un petit billet de blog pour synthétiser tout cela, à suivre sur le carnet de recherche de la BnF [edit : c’est en ligne !].

Hop hop, je saute à nouveau dans le train pour me rendre à Lille, où se déroule la journée d’études de l’ADBU : « Les bibliothécaires, acteurs de la recherche« . On retrouve nos collègues allemands et hollandais avec leur préoccupation de développer, dans les bibliothèques universitaires, des « services support aux chercheurs » qui vont de l’accompagnement dans l’étape de l’appel à projets jusqu’à la préservation des données de la recherche. Et en France, beaucoup de choses aussi : des bibliothèques qui publient des revues en open access, qui accompagnent les chercheurs dans la constitution des corpus et la qualification des données, qui animent des communautés ou encore produisent des études bibliométriques.

Pendant ce temps, à Paris, le colloque « Humanités numériques et Sciences du texte« , organisé par le DIM Sciences du texte et connaissances nouvelles, avait déjà commencé. Forcément, je n’y étais pas, je n’ai pas encore le don d’ubiquité, mais je les ai rejoints le vendredi pour la dernière journée. En regardant le programme, on perçoit le message que les organisateurs ont tenté de faire passer : l’idée des humanités numériques comme une communauté de pratiques transdiciplinaire, s’exprimant à travers une grande diversité de méthodes et de problématiques. J’ai été entre autres ravie d’entendre Dominique Cardon expliquer en live les théories que j’avais lues avec beaucoup d’intérêt dans son ouvrage À quoi rêvent les algorithmes. Il faudrait que je revienne dessus dans un autre billet parce que là, ce serait un peu long.

Au final, qu’est-ce que je retire à chaud de cette folle semaine ? D’abord, l’évidente actualité de la question des humanités numériques à la fois dans la profession et chez les chercheurs qui sont nos partenaires naturels. Je ne suis pas très fan de ce terme mais j’avoue que pour moi, quelque chose de cohérent commence enfin à se dessiner. Vue de ma fenêtre à la BnF, cette chose peut se résumer de la manière suivante : le concept du « data librarian » tel qu’on l’annonce depuis plusieurs années dans la profession commence à être identifié par les chercheurs comme une ressource. Il y a encore du travail mais petit à petit, notre image change et on est de plus en plus perçus dans notre rôle de « passeurs » autour des collections numériques, parce qu’on connaît leur contenu, leur format, les outils qui permettent de les exploiter, les métadonnées qui permettent de les contextualiser et le retour d’expérience des autres chercheurs avec lesquels on a déjà travaillé. Comment s’empare-t-on de ce rôle de passeurs ? Il y a plusieurs formes : accompagnement, partenariat, service, plateforme, laboratoire… les modalités sont encore à inventer, ce qui nous promet quelques années passionnantes pour le futur.

Disclaimer : il semblerait que quelqu’un qui me connaît bien ait profité de l’un de ces événements pour enrichir ma biographie d’un élément non validé. Alors pour ceux qui se posent la question, non je ne me lance pas dans la rédaction d’une thèse ! Par contre, on m’a parlé récemment d’un dispositif de doctorat sur travaux qui m’intéresse bien et pourrait déboucher sur quelque chose. À suivre…

Plongée dans les humanités numériques à Berlin

Cette année, mes pérégrinations estivales ne m’ont pas conduite à l’IFLA en Pologne (coucou à ceux qui y sont !) mais « seulement » à l’une des conférences satellites, organisée par la section des Bibliothèques académiques et de recherche conjointement avec DARIAH et LIBER. Cette conférence, qui s’est donc tenue à Berlin du 15 au 17 août, avait pour thème Digital Humanities – Opportunities and Risks: Connecting Libraries and Research et j’étais invitée à présenter l’une des deux « keynotes », l’occasion pour moi de parler du projet Corpus qui est l’un de mes centres de préoccupations phares du moment.

iflaDH

La conférence a commencé par une intervention introductive de Toma Tasovac, directeur du Centre pour les Humanités Numériques de Belgrade à qui a été posée la difficile question : comment peut-on définir les humanités numériques ? Il répond : avec réticence. Les humanités numériques ne sont pas une discipline, mais une communauté de pratiques.

Les présentations de la journée suivante ont brillamment illustré la diversité des pratiques en question, de l’organisation d’un éditathon dans Wikipédia à la création d’une collection d’archives web en histoire de l’art, de l’exploration approfondie d’un poème d’Apollinaire à la création d’un site collaboratif documentant le patrimoine architectural brésilien. Dans ma propre présentation, j’ai donné plusieurs exemples de projets dans lesquels la BnF a été impliquée, qui posent pour la bibliothèque la question de la mise à disposition de corpus numériques massifs dans le contexte de la science numérique (digital scholarship – expression que je trouve plus inclusive que celle d’humanités numériques, car certains des projets sur lesquels nous travaillons ne viennent pas des humanités). Ruth Wallach est revenue sur cette question de savoir « qui en est, qui n’en est pas » en citant Stephen Ramsay : sommes-nous tous des « edupunks » qui faisons des humanités numériques à la mode artisanale, avec les moyens du bord ?

Cependant, en tant que satellite de l’IFLA, cette conférence ne s’intéressait pas aux DH en soi mais en tant qu’elles questionnent le rôle des bibliothèques. Dans sa présentation, Toma Tasovac a appelé de ses vœux des bibliothèques numériques qui offriraient un accès aux textes non pas comme des objets statiques, mais sous la forme de services et de workflow, permettant non seulement de les utiliser de façon flexible via des API mais aussi de reverser les enrichissements réalisés par les chercheurs.

Sur ce dernier point, il prenait l’exemple de l’OCR en rappelant qu’il « ne faut pas avoir honte d’un mauvais OCR » mais qu’il est par contre important de permettre aux chercheurs de le corriger.

Dans ce contexte, les bibliothèques numériques sont vues comme des infrastructures qui doivent permettre aussi bien la lecture rapprochée que distante (close reading, distant reading). Elles partagent avec les DH l’enjeu de l’interopérabilité et de la communication. Certaines données peuvent être d’accès restreint (Toma utilise l’excellent euphémisme shy data) mais il est important d’expliciter les conditions de leur usage par les chercheurs : c’est le but de la future « Charte de réutilisation des données culturelles » que DARIAH et Europeana sont en train d’élaborer. Si ce sujet vous intéresse, je vous engage à répondre au sondage en cours sur les principes de la charte.

S’est également posée la question de savoir quelle formation il serait nécessaire de donner aux bibliothécaires chargés de ces questions. Lotte Wilms, qui travaille au Lab de la KB (Pays-Bas), a présenté un programme de formation sur 5 jours, qui se tiendra à la rentrée, et dont les composants essentiels rappellent fortement ce qui pourrait être la formation de base d’un data librarian...

Si vous souhaitez en savoir plus, voire rejoindre la communauté des « DH librarians », sachez que deux groupes de travail sont en train de se monter, de façon complémentaire : un groupe « libraries » au sein de DARIAH piloté par Tamara Butigan et Sally Chambers, et un groupe « Digital Humanities » au sein de LIBER piloté par Lotte Wilms et Andreas Degkwitz (plus d’infos ici). A suivre donc, l’un des prochains épisodes étant le symposium auquel je participe à Francfort en octobre : New Directions for Libraries, Scholars, and Partnerships: an International Symposium et peut-être plus près de vous géographiquement, la journée d’études de l’ADEMEC à Paris le 14 octobre : Humanités numériques et données patrimoniales : publics, réseaux, pratiques. Venez nombreux, en plus c’est gratuit !

LD4P : un « grand soir » pour les bibliothèques américaines ?

 

La semaine dernière, j’étais invitée par Stanford à participer, en tant qu’expert, à un atelier du projet LD4P (Linked Data For Production). Ce projet financé par la Mellon Foundation a pris la suite d’un précédent projet nommé LD4L (Linked data for Libraries) ; il s’agit cette fois d’une initiative conjointe de plusieurs grandes bibliothèques universitaires américaines (Stanford, Harvard, Cornell, Columbia, Princeton) et de la Library of Congress, qui vise à développer concrètement le catalogage « en linked data » pour reprendre leurs propres termes. L’objectif du meeting était de présenter les résultats du projet à ce jour et d’obtenir le retour de la communauté. Une bonne occasion pour moi de remettre à jour mes connaissances sur ce sujet et de mieux comprendre le positionnement des bibliothèques américaines dans la transition bibliographique aujourd’hui.

Le projet LD4P se découpe en fait en plusieurs sous-projets qu’on peut classer en trois catégories :
– ceux qui visent à développer l’ontologie Bibframe et ses extensions,
– ceux qui travaillent sur le processus de catalogage

– ceux qui travaillent sur les outils.

Souvenez-vous, Bibframe c’est ce standard dont l’ambition est de remplacer les formats MARC. Développé et maintenu par la Library of Congress, il est actuellement dans sa version 2.0. – cette nouvelle version parue en avril 2016 est d’ailleurs l’un des livrables du projet.

Comme je le soulignais déjà en 2014, Bibframe constitue un cadre assez générique pour la description de documents de bibliothèque. L’un des objectifs de LD4P est donc de compléter cet effort de modélisation afin de permettre son implémentation concrète, en commençant plutôt par des documents spécialisés (documents cartographiques et géographiques, livres rares, image animée, musique jouée etc.). Le présupposé est qu’il est préférable de partir de cas complexes qu’on pourra ensuite généraliser pour des documents plus simples, plutôt que de commencer par le livre et ensuite se retrouver en difficulté face aux documents spécialisés.
Ce travail a donné naissance à une version dérivée de Bibframe nommée Bibliotek-o ainsi qu’à plusieurs extensions pour les types de documents pré-cités. Il faut cependant noter que certains services, comme le réseau Library.link, utilisent encore d’anciennes versions de Bibframe (Bibframe 1.0 ou Bibframe lite).

Tout ceci débouche sur une prolifération de modèles plus ou moins divergents qui inquiètent les porteurs du projet, ceux-ci se demandant si on ne serait pas en train de constituer de nouveaux silos. Contrairement à ce que laissait espérer le web sémantique tel qu’on l’envisageait au départ, on en arrive à la conclusion qu’on est loin d’être débarrassés des problématiques de conversion, transformation et recopie de données.

Du côté des outils, ce n’est donc pas seulement la question du convertisseur MARC -> Bibframe ou de l’éditeur de données en RDF qui se pose, mais aussi celle de toute la galaxie des outils qui vont permettre de traiter, réconcilier, aligner, contrôler, enrichir, convertir, diffuser et exploiter ces données dans leur nouveau format qui se pose. Les partenaires du projet ont commencé à établir un registre des outils disponibles qui ont été évalués dans ce cadre.

Un des aspects les plus intéressants de LD4P est à mon avis le sous-projet « tracer bullets » qui ambitionne d’articuler plusieurs de ces outils pour démontrer la faisabilité d’une implémentation de bout en bout, pour un sous-ensemble de documents, d’un processus ou workflow basé sur RDF. C’est justement Stanford qui pilote ce sous-projet.
4 types de workflow de catalogage ont été identifiés :
– récupération et enrichissement de données provenant d’un éditeur
– création manuelle de données à l’unité
– dérivation depuis un réservoir type WorldCat
– récupération de données en masse.

Dans un premier temps, c’est le premier workflow qui a été exploré, grâce à une collaboration avec l’éditeur italien Casalini Libri. Stanford bénéficie d’un avantage par rapport aux bibliothèques qui disposent d’un catalogue intégré dont l’interface de consultation pour les usagers repose sur la même base que la production : leur système d’accès est distinct du système de production, il est basé sur le moteur de recherche SolR et le système Blacklight. Le projet « tracer bullet » consiste donc à récupérer les données de l’éditeur, les compléter notamment des liens aux autorités, les transformer de MARC à Bibframe et enfin les verser dans SolR pour l’accès. Il a ainsi été possible de démontrer qu’on pouvait « brancher » sur le système d’accès un nouveau système de production basé sur Bibframe, sans perte de qualité dans l’expérience utilisateur.

La dernière session de travail de ces deux jours était consacrée aux questions de gouvernance, d’engagement des communautés, de formation etc. J’ai participé aux discussions sur la formation, ce qui m’a permis de mesurer l’importance que semble avoir pris le web de données aux yeux des bibliothécaires américains : loin du postulat que je faisais en 2014 en disant qu’il ne me semblait pas utile que tous les bibliothécaires soient formés au RDF, aux ontologies et autres arcanes du web semantique, nos collègues d’outre Atlantique semblent considérer que ce sont là les bases de la profession que tout le monde devrait a minima connaître.

À l’heure où je suis pour ma part (avec mon complice des Petites Cases) plutôt dans une démarche consistant à replacer le web sémantique dans un horizon plus large des données de bibliothèques, cette place étant plus du côté de l’interopérabilité et du partage que de celui de la production, ce décalage m’a pour le moins étonnée. Est-il dû aux années d’expérience que nous avons acquise, en France, sur la gestion de données RDF en production ?

Il ne faut pas oublier que les bibliothèques américaines sont confrontées à une situation bien différente de la nôtre. Leur format, MARC21, ne contient pas de liens entre notices bibliographiques et notices d’autorité : le seul point de contact se fait à travers les « noms », formes figées retenues pour dénommer ces entités de façon normalisée. Cette absence de lien constitue un handicap majeur pour la transition vers des modèles de type FRBR et vers le web de données, d’où une urgence plus grande à changer. Et tant qu’à changer, autant passer directement au format « du futur » plutôt que de faire subir des évolutions majeures à un MARC vieux de cinquante ans.

Par ailleurs, la déconnexion plus importante entre les notices bibliographiques et les données d’autorité qui en résulte conduit à une vision du catalogue comme un réservoir de notices figées appartenant au passé. Phil Schreur, de Stanford, compare ainsi les réservoirs de notice MARC à une dette que nous devrons payer un jour : il nous propose de ne pas aggraver cette dette en créant de nouvelles notices en MARC, mais de commencer dès que possible à produire dans le format de demain, la question du paiement de la dette (ou de la migration de l’existant) étant temporairement remise à plus tard.

La situation est sans aucun doute bien différente pour des bibliothèques françaises qui disposent déjà de données liées, même si elles sont encodées en Intermarc ou en Unimarc plutôt qu’en RDF. Nos catalogues lient ainsi de façon très organique données bibliographique et d’autorité, production et accès, création de notices et gestion de données vivantes. Cet état de fait nous donne une certaine avance (qui sera sans doute notre retard de demain…) et nous permet d’envisager une transition bibliographique plus progressive et plus étalée dans le temps : comme le disait récemment une collègue, « Pas de grand soir, mais beaucoup de petits matins ».

Vers de nouveaux catalogues

 

image

Après un an de travail, le livre Vers de nouveaux catalogues que j’ai dirigé au Cercle de la librairie (collection bibliothèques) est à présent disponible. Je profite de ce billet pour remercier tous les contributeurs, pour la qualité de leurs articles et pour leur réactivité. Grâce à eux, le résultat obtenu est riche, dense et passionnant… Lisez-le !

Pour vous allécher un peu, je vous propose ci-dessous mon introduction à l’ouvrage, qui expose les différents axes qui y sont traités, suivie de sa table des matières.

Introduction : vers de nouveaux catalogues ?

Vers de nouveaux catalogues : voici bien un titre qu’il aurait fallu, à l’heure où nous entreprenons l’écriture de cet ouvrage, doter d’un point d’interrogation. En effet, peut-on parler de « nouveaux » catalogues aujourd’hui, alors que depuis le dernier quart du siècle précédent, les catalogues de bibliothèques n’ont cessé de se réinventer ? Des premières heures de l’informatisation aux OPAC dits de « nouvelle génération », des systèmes intégrés de gestion de bibliothèque (SIGB) aux portails de découverte, le catalogue a endossé au fil du temps plusieurs fonctions. Outil de gestion des collections pour les professionnels, système informatisé permettant d’automatiser les processus métier tels que le catalogage et la circulation des documents, le catalogue est aussi, avant tout, l’interface proposée aux lecteurs pour chercher et trouver les documents et ressources de la bibliothèque.
Évoluant dans différentes directions pour répondre aux besoins et attentes liés à ces rôles multiples, le catalogue ou plutôt, devrait-on dire, les catalogues, présentent aujourd’hui des visages pluriels qu’il serait bien ambitieux de vouloir figer pour dresser le bilan de leur état actuel. Aussi le présent ouvrage ne prétend-il pas proposer une somme de référence sur le sujet, mais plutôt dresser un panorama de ces évolutions dans un contexte en mutation, qui continuera sans doute d’évoluer dans les années à venir.

En effet, l’évolution des catalogues s’inscrit dans un contexte qui est marqué par des tendances longues, liées à des cycles de transformation de leur environnement qui ne sont pas encore achevés.
La première de ces tendances est bien sûr l’irruption du web, qui a transformé les usages aussi bien des lecteurs que des professionnels de l’information et a positionné les catalogues en concurrence avec des outils à la force de frappe technologique incomparable : les moteurs de recherche. Rapidité de réponse, classement des résultats par pertinence, point d’entrée unique pour toutes les recherches, ergonomie simple et intuitive sont devenus des exigences naturelles à la hauteur desquelles le catalogue doit se hisser s’il souhaite continuer à exister en tant que tel. Deux types d’applications, les « OPAC nouvelle génération », apparus vers la fin des années 2000 et les « portails de découverte » au début des années 2010, se sont donné pour objectif de répondre à cette problématique. Un travail approfondi sur l’ergonomie de l’interface de recherche et la qualité du moteur a permis d’améliorer globalement l’expérience de l’utilisateur de ces outils, les rapprochant d’univers devenus familiers à tout internaute.
Les portails de découverte ont également l’ambition de répondre à une autre des tendances de long terme qui affecte les catalogues : la transition d’une partie significative des ressources intéressant les bibliothèques vers le numérique. Entamée dès les années 1990 avec les publications scientifiques, cette évolution n’épargne plus aujourd’hui les bibliothèques publiques, qui construisent pour leurs usagers des offres d’accès à des livres numériques en prêt ou en streaming mais aussi à des plateformes de vidéo à la demande ou de musique numérique. Or ces ressources numériques constituent, dans le domaine du signalement, une véritable révolution. Elles se présentent sous forme de flux continu et non plus avec une périodicité fixe, se décrivent à un niveau de granularité beaucoup plus fin (article, chapitre, plage d’un album de musique…), évoluent même constamment dans leur contenu et dans leur nature si on pense aux sites web. Au début des années 2000, les « portails de recherche fédérée » s’appuyaient sur des technologies d’interopérabilité propres au monde documentaire comme Z39.50, SRU/SRW ou encore OAI-PMH pour interroger simultanément plusieurs bases. Les « portails de découverte » qui leur ont succédé empruntent aux moteurs de recherche des méthodes plus simples et plus fluides. De nouveaux catalogues « dans les nuages » mutualisent les moyens nécessaires pour faire face à ces problématiques et s’appuient sur des bases de connaissances qui proposent des métadonnées préenregistrées pour une partie des ressources numériques.
Face à de tels changements, le monde des bibliothèques s’est également posé la question de l’évolution de son modèle de données, remettant en cause les formats MARC dont les principes remontaient à une informatique bien antérieure au web et cherchant à s’éloigner du carcan de la notice, héritée des catalogues sur fiches. Cette évolution commence en 1998 avec la création au sein de l’IFLA du modèle FRBR, qui propose de s’appuyer sur les besoins des usagers pour déterminer le contenu de la notice bibliographique et définit la notion d’œuvre, entité intellectuelle qui s’affranchit de la matérialité du document. Ce nouveau modèle a également pour effet d’attribuer une importance nouvelle aux données d’autorité, plaçant désormais au cœur de la description bibliographique les entités que sont les auteurs, les œuvres ou les sujets. Il faut cependant attendre 2005 pour voir émerger les prémices d’une évolution des pratiques de catalogage, avec les premiers travaux sur le nouveau code RDA (Ressources : description et accès) destiné à succéder aux règles de catalogage anglo-américaines (AACR2) puis le projet Bibframe de la Bibliothèque du Congrès. L’ensemble de ces évolutions, connu aujourd’hui sous le nom de « transition bibliographique », implique une transformation en profondeur des normes et des pratiques de catalogage, mais aussi des systèmes capables de produire et d’exploiter ces nouvelles données : plus qu’un grand soir du catalogage qui verrait la fin des formats MARC, c’est le début d’une période de mutation qui s’effectuera progressivement sur plusieurs années.

Parmi les bénéfices attendus de la transition bibliographique, celle-ci devrait permettre aux catalogues de s’acclimater plus aisément à la quatrième des tendances longues qui les affecte : l’émergence d’un nouvel environnement technologique de la « data ». Ce nouvel environnement se caractérise par une ouverture juridique (open data) visant à favoriser la réutilisation des données, par une évolution du web intégrant la spécificité des données structurées et liées (linked data ou web de données), par l’émergence de technologies permettant de manipuler en temps réel des masses très importantes de données (big data) et par de nouvelles interfaces alliant élégance graphique et force narrative (data visualisation). Extérieur à l’univers des bibliothèques, ce mouvement présente l’originalité de toucher des problématiques de société qui lui donnent une envergure médiatique très large : transparence de l’information publique, risques liés aux traitements de masse des données personnelles, orchestration de fuites liées à des données sensibles comme les « Panama papers » et data journalisme font la une de l’actualité, amenant la « data » à un niveau de conscience collective face auquel les bibliothèques font figure de nain cherchant à se jucher sur les épaules de géants.
Dans ce contexte, ce ne sont plus tant les catalogues qui comptent que les données qu’ils contiennent : dans un premier temps, les bibliothèques se préoccupent de diffuser leurs données dans ce nouvel environnement, adoptant les standards juridiques (licences ouvertes) et techniques (web de données) qu’il suppose dans l’espoir de permettre à leurs données d’interagir avec celles d’autres communautés et de gagner en visibilité sur web. Ainsi, le catalogue ne cherche plus à imiter l’interface des moteurs de recherche généralistes, mais à pousser ses données vers eux de manière à se rendre visible là où les utilisateurs se trouvent. De manière plus prospective se pose la question de l’utilisation de briques technologiques nouvelles permettant aux bibliothèques de bénéficier des innovations qu’apporte le nouvel environnement de la data : traitements automatisés, machine learning, algorithmes de recommandation, etc. Les catalogues se réinventent en entrepôts ou « hubs » de métadonnées, capables de produire, transformer et traiter en masse des données d’origines variées en vue d’une multiplicité d’usages.

Parler des catalogues aujourd’hui, c’est prendre acte de la diversité des mutations qui les affectent et se propagent par étapes à des rythmes différents. Les portails de découverte n’ont pas fait disparaître le besoin de disposer d’un SIGB pour assurer les fonctions traditionnelles de la bibliothèque ; le web de données n’a pas remplacé les modèles de catalogage partagé basés sur la récupération de notices ; le catalogage en RDA ou en EAD pour les archives et manuscrits devra coexister pendant encore plusieurs années avec les traditionnels formats MARC ; les hubs de métadonnées capables de gérer flux et traitements devront continuer à s’articuler avec des bases de données plus traditionnelles.
Le paysage actuel des catalogues, tel qu’il se dresse à la lecture des contributions au présent ouvrage, voit ces différents systèmes et pratiques évoluer de manières diverses, prenant inspiration dans un environnement technologique extrêmement stimulant, qui favorise les coopérations et l’inventivité et ouvre de nouveaux possibles. Loin de céder à une vision pessimiste des catalogues traditionnels, cœur de métier des bibliothèques menacé de disparition, il laisse espérer l’émergence de « nouveaux catalogues », qui n’en porteront peut-être plus le nom, mais continueront à constituer la plateforme technologique sur laquelle se construit la mission première des bibliothèques : l’accès de tous à la connaissance et aux savoirs.

Table des matières

Vers de nouveaux catalogues ? Propos introductif par Emmanuelle Bermès (Bibliothèque nationale de France)

1) Le catalogue au défi du Web

L’open data, un levier pour l’évolution des catalogues, par Romain Wenz (Service interministériel des archives de France)

Vers un catalogue orienté entités : la FRBRisation des catalogues, par Emmanuelle Bermès (Bibliothèque nationale de France)

Visualiser les données du catalogue, par Raphaëlle Lapôtre (Bibliothèque nationale de France)

2) Réinventer le catalogue aujourd’hui

La transition bibliographique, par Françoise Leresche (Bibliothèque nationale de France)

L’autre catalogue ? Décrire des archives et des manuscrits, par Florent Palluault (Médiathèque François-Mitterrand de Poitiers) et Patrick Latour (Bibliothèque Mazarine)

Un projet Open source, collaboratif et orienté utilisateur en BU : BRISE ES, par Caroline Bruley (Service Commun de Documentation de l’université Jean Monnet, Saint-Etienne)

3) Le catalogue dans son écosystème : une affaire de flux

La constitution et la réutilisation des données entre bibliothèques, par Guillaume Adreani (Le Défenseur des droits)

Flux de données entre éditeurs et bibliothèques: le format ONIX, par Jean-Charles Pajou (Bibliothèque nationale de France)

Atomes crochus : les métadonnées des éditeurs et l’ABES, par Yann Nicolas (Agence Bibliographique de l’Enseignement Supérieur)

4) Outils et systèmes

Portails et catalogues en bibliothèque publique, l’enjeu du numérique, par Guillaume Hatt (Bibliothèque municipale de Grenoble)

Le catalogue dans les nuages : vers un SGB mutualisé, par Sandrine Berthier (Université de Bordeaux)

La donnée : nouvelle perspective pour les bibliothèques, par Gautier Poupeau (Institut national de l’audiovisuel)

Des nouvelles d’Europeana

Du 7 au 9 novembre derniers, j’ai assisté à l’assemblée générale de l’association du réseau Europeana (Europeana Network Association), précédée de la réunion du conseil des membres. Je poste mon compte-rendu ici car comme vous le savez, la participation à l’association se fait à titre individuel : au sein du conseil des membres, je représente l’ensemble de ma communauté (vous tous, chers lecteurs, qui que vous soyez !)

Un petit rappel sur la gouvernance avant de commencer : pour mémoire, Europeana marche aujourd’hui sur deux jambes. La première est son organe opérationnel ou exécutif, la Fondation Europeana, en charge de la mise en œuvre du portail Collections notamment. La deuxième est l’Association, qui rassemble l’ensemble du réseau dans toute sa diversité : bibliothécaires, archivistes, conservateurs de musées mais aussi enseignants, historiens, éditeurs, entrepreneurs de start-ups et simples usagers. L’Association est pilotée par un conseil des membres (Members Council) dont 6 représentants forment le Management Board. Les membres de ce Management Board siègent également au Governing Board de la Fondation : l’instance qui pilote le tout, en lien avec les États membres et la Commission Européenne. En images :

Donc Assemblée générale de l’Association : il s’agit de la grande rencontre annuelle de tous les membres du réseau, qui se tenait cette année à la bibliothèque nationale de Lettonie à Riga.

Parmi les sujets à l’ordre du jour, la nouvelle stratégie d’Europeana suite aux conclusions du conseil de l’Europe en mai dernier. Cette nouvelle stratégie repose sur deux grands axes :
– d’une part, pour les institutions patrimoniales, faciliter considérablement le versement de données dans Europeana,
– d’autre part, moderniser la manière dont les usagers accèdent au contenu, en mettant l’accès sur les usages pédagogiques et les accès thématiques.

Sur le premier point, nous avons eu droit à une présentation du nouveau procédé « operation direct » qui permettra de charger dans Europeana des documents numériques directement via une API très simple ou à partir d’un CMS, par exemple. Ce mode de versement ne se substitue pas au fonctionnement actuel avec les agrégateurs, mais il en est complémentaire. Le rôle de IIIF dans l’évolution du modèle d’agrégation a aussi été plusieurs fois souligné (cf. aussi cette très bonne explication de IIIF en français).
Sur le deuxième point, le portail Collections avec ses 53 millions d’objets numérisés a donc vocation à se trouver un peu en retrait, à l’avenir, par rapport aux collections thématiques comme Musique, Histoire de l’art et bientôt Mode, Photographie, Presse etc. C’est l’occasion d’annoncer que pour la première fois, la Commission européenne se propose de financer des projets de médiation autour des collections numériques d’Europeana (projets à soumettre avant le 15/12).

Bien d’autres sujets ont été abordés au cours de cette assemblée générale. Les collègues américains étaient à l’honneur : ont partagé leur expérience les professionnels de DPLA, du Getty ou encore de NYPL Labs. Il a été également question à plusieurs reprises de Wikidata.
Des questions importantes pour l’avenir du réseau ont été posées, comme celle du mandat donné à Europeana pour faire du lobbying dans le domaine du copyright ou l’évaluation de l’impact de la bibliothèque numérique européenne.
Ajoutez à cela le format « chef’s tables » qui a permis d’aborder un grand nombre de sujets, du design orienté utilisateur à l’agrégation en passant par l’utilisation d’Europeana pour la recherche, et une vingtaine d’« ignite talks » : vous aurez une idée du brassage très large d’idées qui caractérise ce réseau riche et divers.

La conférence s’est terminée sur une table ronde animée par David Haskiya sur le thème « et si tout était à refaire ? » L’occasion de rappeler que même si le résultat est loin d’être parfait, Europeana nous a permis de progresser énormément sur le plan technique et de créer une dynamique autour des contenus numériques culturels. Un effort que la communauté réunie la semaine dernière à Riga est motivée à poursuivre.

Pour en savoir plus :

Communautés et institutions : la cohabitation impossible ?

J’ai eu souvent affaire à cette question ces derniers temps, que ce soit dans le contexte de l’association Europeana, d’IIPC ou encore des projets collaboratifs de la BnF : comment faire cohabiter harmonieusement les modes de fonctionnement radicalement différents d’une institution et d’une communauté ?

Les institutions ont plusieurs atouts dans leur manche. Elles sont organisées, pérennes et souvent dotées de ressources telles que des moyens financiers ou logistiques. Wikipédia ne pourrait pas exister s’il n’y avait pas quelqu’un qui faisait tourner les serveurs et lançait les campagnes annuelles de collecte de dons. Bien sûr, Wikipédia n’existerait pas non plus s’il n’y avait la communauté pour créer, organiser, surveiller et améliorer les contenus. Le succès de l’entreprise repose sur la bonne entente des deux colocataires, qui se répartissent harmonieusement les tâches ménagères (les anglo-saxons utilisent d’ailleurs le terme de « housekeeping » pour désigner les affaires administratives). Pourtant la lourdeur des institutions, avec les règles parfois rigides dont elles sont obligées de se doter pour fonctionner, peut avoir pour conséquence un désintérêt, une désaffection voire franchement une défiance de la part des communautés.
Face à ce problème, on peut avoir rapidement l’impression d’essayer de réconcilier deux colocataires qui doivent vivre dans le même appartement alors que l’un est maniaque et psychorigide et l’autre joyeux et bordélique. Au départ, sur le papier, on a l’impression qu’ils sont faits pour s’entendre : l’un des deux apportera la bonne ambiance, les fêtes et la bonne bouffe, l’autre se chargera du ménage le lendemain et de la bonne tenue du foyer. Sauf que rapidement la colocation vire au cauchemar, chacun ayant l’impression de donner plus qu’il ne retire de bénéfices dans l’opération.

De façon assez intéressante, j’ai dernièrement eu l’occasion de regarder le problème sous les deux angles, à travers mon expérience dans Europeana et dans IIPC.
Côté Europeana, on observe un équilibre (ou une tension, ce qui revient au même) intéressant entre l’institution, représentée par la Fondation qui met en œuvre le portail Europeana Collections, et l’Association, qui est censée représenter les intérêts de la communauté. Lequel des deux est le plus important ? Qu’est-ce qui apporte plus de valeur au citoyen européen, entre un portail donnant accès à cinquante millions de ressources numérisées et une plateforme destinée à dynamiser un réseau de professionnels ? Le produit ou la communauté ? J’ai déjà donné mon avis sur la question…
Côté IIPC, le consortium qui a atteint l’âge vénérable de 12 ans doit aujourd’hui passer d’un modèle institutionnel (consistant à définir des projets puis les financer et les piloter) à un modèle de communauté où les projets émergent d’eux-mêmes et pour lesquels il agit comme un facilitateur. Ce changement de logique est compliqué à opérer, mais essentiel pour sa survie et sa croissance.
Enfin, ma récente visite à la British Library, avec la présentation des communautés qu’ils animent comme le Knowledge Quarter ou le Digital scholarship avec son Labs, m’a permis de mieux comprendre les différences entre la logique institutionnelle, qui repose sur la mise en œuvre de projets ou de produits, et celle qui anime les communautés. Il s’agit vraiment de deux façons complètement différentes d’aborder un sujet ; elles ne sont pas forcément incompatibles mais reposent à plusieurs égards sur des logiques opposées.

Le point de départ : think big
La communauté se caractérise par un concept de départ autour duquel il y a une compréhension partagée du problème qu’on cherche à résoudre. Des concepts comme « open innovation », « digital scholarship » ou « knowledge quarter » en sont de bons exemples.  Une fois qu’on a réussi à mettre tout le monde d’accord sur le mot à utiliser qui va guider la communauté et faire converger les énergies, le reste suit.
Côté projet, on ne part pas d’un concept mais d’un programme, d’un résultat attendu ou livrable. On définit ce qu’on veut construire, puis on met en place le programme qui permet d’y arriver. Les dix minutes passées à choisir un acronyme imbitable qui deviendra la marque du projet pour le meilleur et pour le pire sont rarement une priorité.
Le « programme » qui sert de point de départ au projet est orienté résultat, alors que le concept qui permet de fonder la communauté est centré sur une compréhension partagée du problème (indépendamment des solutions qu’on peut lui apporter).

Les ressources : fund raising vs. call for proposals
Communautés et projets recourent à des méthodes très différentes pour réunir du financement.
Parce qu’elles reposent sur des concepts partagés et puissants, les communautés ont la capacité d’inciter leurs contributeurs à contribuer à la hauteur des moyens dont ils disposent (ou qu’ils souhaitent apporter), qu’il s’agisse d’argent, de moyens en nature (lieux, fournitures, etc.) ou de compétences. Les moyens apportés peuvent être très petits mais innombrables (cas de Wikipédia aussi bien dans la levée de fonds – crowdfunding – que dans la production de contenus – crowdsourcing) ou ponctuels mais énormes (cas du mécénat apporté par de grosses fondations ou entreprises américaines). Ils sont dans tous les cas difficilement prévisibles à l’avance et obligent la communauté à adapter ses actions aux moyens disponibles, en croissance aussi bien qu’en décroissance suivant la conjoncture.
Côté institutions et projets, le modèle qui prévaut est la subvention : on commence par évaluer combien coûte ce qu’on veut fabriquer, on se partage le gâteau entre partenaires en fonction de l’effort que chacun peut mettre et on va voir un tiers pour obtenir la somme. Ce tiers peut être un pouvoir public (tutelle, agence comme l’ANR…) mais ce modèle est aussi très souvent utilisé par les institutions dans leur recherche de mécénat.

Les méthodes de travail : start small, fail often
Cette différence dans la manière de financer leurs activités a bien sûr un impact sur ce que communautés et projets sont capables de produire et la méthode employée pour ce faire. Là où le projet s’impose dès le départ un résultat à atteindre et un calendrier, la communauté préfère lancer une multitude de petits projets, dont certains échoueront, mais ce n’est pas grave. On est dans la logique de l’essai-erreur, le principe étant de concrétiser aussi vite que possible les idées pour pouvoir se débarrasser rapidement de ce qui ne fonctionne pas et laisser grossir les « best-sellers », presque naturellement emportés par leur succès.

Les dépenses : hacking & yacking
De façon tout à fait logique, les communautés ne dépensent pas non plus leur argent de la même manière que les institutions. Se vivant comme des facilitateurs, elles vont consacrer une part significative de leurs ressources à permettre aux êtres humains qui constituent les communautés de travailler ensemble. Et que font les êtres humains ? Ils mangent, boivent, se rencontrent et communiquent. Rien d’étonnant, donc, que dans une communauté les dépenses soient souvent orientées vers des frais de déplacement, de bouche, de communication ou de logistique. Et s’il y a des emplois à financer, ils seront le plus souvent tournés vers ce type d’activité (planification d’événements, etc.). Le reste, la ressource qui produit réellement du travail, est en fait apportée par la communauté. L’exemple typique c’est le hackathon : l’institution ou l’organisateur fournit un lieu sympa, du café à volonté et des pizzas (yacking), la communauté fournit des idées, de la force de travail et des compétences (hacking).
Vu depuis une logique de projet, l’équilibre financier d’une communauté est une aberration. Un projet va en général consacrer 10 à 20% de son budget à sa propre gestion et communication. Le reste sert à financier des emplois, des équipements, du matériel, bref à acquérir ce que la communauté génère par synergie mais sans garantie de résultat. Si on veut des résultats garantis, il faut aussi garantir les moyens. Cela semble logique, en tout cas vu depuis l’institution…

La mesure du succès : empower & engage
La communauté se considère comme un facilitateur : son objectif principal est d’impliquer (to engage) ses membres et de leur donner des moyens (to empower) pour créer les conditions de la concrétisation de leurs propres idées. L’institution, elle, s’approprie les résultats du projet ou le produit, pas forcément au sens de la propriété intellectuelle mais au moins en tant qu’autorité productrice de ces résultats, généralement mesurables au moyen d’indicateurs. L’approche projet donne donc en apparence un retour sur investissement plus concret. Le résultat est un produit visible, tangible, dont l’institution peut revendiquer la paternité. Pour autant, ce produit sera-t-il suffisamment évolutif, maintenable, et tout simplement réussi ? La communauté de ses utilisateurs sera finalement seul juge.
Quand on cherche à mesurer les résultats de la communauté, on peut avoir l’impression d’une situation contrastée, entre quelques grandes réussites fulgurantes d’une part et une multitude d’initiatives dispersées et pas forcément très pérennes d’autre part. De plus, il n’est pas toujours évident de mesurer la part que la communauté a joué dans le succès d’un projet né en son sein.
Au final, les communautés et les projets ont des moyens très différents de mesurer leur succès. L’objectif premier du projet est de réussir, c’est à dire de livrer des résultats qui correspondent à ce qui était annoncé au départ. Les communautés, elles, cherchent à grossir, à engager de plus en plus de gens, sans poser de limites ou d’objectifs.

Finalement, les communautés sont-elles utiles ?
Si vous vous posez cette question, c’est que vous n’avez probablement pas (encore) intégré le mode de pensée qui sous-tend les communautés. Les communautés sont comme les fées : elles n’existent que par et pour ceux qui y croient. Je n’irais pas jusqu’à dire qu’il suffit de taper dans ses mains, mais l’idée est là : parce que leur but premier est de réunir des gens qui partagent les mêmes valeurs et les mêmes buts et sont prêts à y consacrer des ressources (du temps, des moyens, de l’énergie), les communautés n’ont pas besoin de prouver leur utilité pour exister. Le seul fait qu’elles existent crée de la valeur, une valeur parfois difficilement mesurable et observable de l’extérieur mais clairement ressentie par ses membres, qui perçoivent l’apport de la communauté à leur réussite, même si cet apport est difficile à quantifier ou à retracer de manière directe. Cette valeur se réalise parfois de façon concrète dans des ressources partagées qu’on appelle les communs.

Dans leur livre L’âge de la multitude, N. Colin et H. Verdier qualifient la multitude (ce que j’ai appelé ici les communautés, car à mon avis la multitude n’est pas une réalité unique mais plurielle) d’ « externalité positive » : quelque chose qui est en dehors du projet ou du produit, mais contribue à créer de la valeur qui joue en faveur de sa réussite de manière plus ou moins mesurable. Pour eux, le principal enjeu de la transition numérique, pour les organisations, institutions ou entreprises, est d’entrer en synergie avec la multitude. Pour cela, les institutions doivent devenir des plateformes principalement dédiées à permettre à la multitude de s’en emparer et ainsi déployer sa créativité.
Ce modèle qui a fait le succès des Uber, Amazon, Facebook et autres Twitter implique, pour des institutions comme les bibliothèques, de lâcher prise sur un certain nombre choses : les projets et les produits, les indicateurs de performance, la propriété de ce qu’elles créent. Il suppose de se définir comme une plateforme et donc se recentrer sur le service qu’on offre aux communautés, leur permettant d’exprimer leur créativité ; de se poser en facilitateur d’une expérience plutôt qu’en fournisseur d’un produit (en l’occurrence la collection) ; de concevoir ses propres objectifs en mineure et ceux de ses usagers en majeure. C’est ce que les bibliothèques ont commencé à faire avec la notion de « troisième lieu ».

Parce que toute réflexion de fond sur les bibliothèques ramène toujours à cet ouvrage indispensable qu’est La sagesse du bibliothécaire, je vais conclure en reprenant la citation de Michel Melot retenue par Mathilde Servet dans son article : « Pour atteindre son seuil critique, il faut que la bibliothèque ait de nombreux lecteurs et bien d’autres usages que la simple lecture. La bibliothèque n’existe que par la communauté […] [Le bibliothécaire] ne parle pas pour lui-même mais pour la communauté qu’il sert. Il doit en refléter les goûts et les opinions, mais aussi les ouvrir à d’autres. Son choix doit être celui de la pluralité […], cette “bigarrure” qui caractérise les sociétés libres. »

3 minutes pour Europeana

Amis internautes, gallicanautes, bibliothéconomes et divers autres, j’ai un service à vous demander et cela ne vous prendra en tout et pour tout que 3 minutes.
1) rendez-vous sur le portail Europeana Collections (NB : utiliser « settings » à droite pour passer l’interface en français)
2) cherchez votre auteur, artiste, document, personnage ou animal préféré
3) dans la colonne de gauche, cliquez sur « yes with attribution/oui avec attribution »
4) choisissez un des résultats proposés
5) à droite cliquez sur « partager avec » votre réseau social préféré (Twitter, Facebook…)

6) écrivez « Je suis [nom que vous avez recherché] et je suis dans @EuropeanaEu #AllezCulture ! »

Voilà, c’est tout, si vous ne voulez pas y passer plus de 3 minutes vous pouvez vous arrêter ici. Merci beaucoup !

 

Pour ceux qui auraient besoin de savoir pourquoi je vous demande cela, voici quelques explications complémentaires.
Comme vous le savez, l’an dernier j’ai été élue membre du « Members Council » d’Europeana. Parmi mes responsabilités figure celle de faire appel à mon réseau (oui ! C’est vous !) quand Europeana a besoin d’aide. Et aujourd’hui, Europeana a besoin de votre aide.
A la fin du mois, une réunion des représentants culturels des états membres de l’Union européenne va discuter de l’avenir d’Europeana. Jusqu’ici celle-ci ne dispose pas d’un mode financement stable : sa pérennité et même sa survie sont en jeu. C’est donc le moment, plus que jamais, de consacrer 3 minutes de votre temps à dire qu’Europeana compte pour vous. Pour cela nous vous invitons à participer à la campagne #AllezCulture dont le principe est expliqué en anglais sur le blog Europeana et en français sur le blog Gallica.

 

Peut-être n’avez-vous que très peu l’usage du portail Europeana et pensez-vous que votre bibliothèque numérique locale ou nationale rend déjà la plupart des services que vous espérez (de l’inspiration pour votre prochain tatouage à la « une » de la presse d’il y a 100 ans…)
Mais il ne faut pas oublier que si l’ambition d’une bibliothèque numérique européenne n’avait pas suscité la numérisation de masse, Gallica aurait peut-être continué la numérisation au même rythme qu’auparavant et compterait moins de 100.000 documents au lieu des 3,5 millions qu’elle propose aujourd’hui. Que certains pays européens et certaines institutions n’auraient pas pu démarrer leurs programmes de numérisation si Europeana n’avait pas été présente pour les soutenir, techniquement et financièrement.
Nous savons aussi, nous professionnels de la culture, qu’Europeana ce n’est pas seulement un portail mais un réseau d’experts qui s’engage dans la défense du domaine public et de l’open data, invente le modèle d’agrégation de demain et milite d’une façon générale pour la diffusion la plus large de la culture sur le web dans tous les pays d’Europe.

 

3 minutes de votre temps, c’est tout ce que nous vous demandons pour contribuer à affirmer votre attachement à ces valeurs et votre souhait qu’Europeana puisse continuer à exister, à fédérer les énergies en faveur de la numérisation du patrimoine et de sa diffusion et à fournir le terreau d’innovations technologiques partagées.
Et si vous avez un peu plus de temps et d’énergie à consacrer à la cause, vous pouvez adhérer à l’association du réseau Europeana : c’est gratuit, cela ne prend que quelques minutes là aussi, et cela vous permettra de recevoir régulièrement les informations du réseau.

IIPC 2016 – how to collaborate ?

Il y a deux semaines, j’avais le privilège de partir pour une semaine en Islande à l’occasion de la rencontre annuelle du consortium IIPC pour la préservation de l’Internet : d’abord l’assemblée générale, puis conférence WAC (Web Archiving Conference) et enfin la réunion du Steering Committee, instance de gouvernance du consortium. Ce dernier, constitué de 15 membres issus pour la plupart de bibliothèques nationales, m’a fait la confiance de me confier la présidence du consortium pour un an.

 

Beaucoup d’entre vous m’ont félicitée sur les réseaux sociaux, ce dont je vous remercie, mais je ne suis pas sûre que tout le monde sache exactement de quoi il retourne, donc j’ai décidé de revenir ici sur le consortium IIPC et ce rôle de présidente.

 

Le consortium a été fondé il y a 13 ans par un petit groupe de bibliothèques nationales conjointement avec Internet Archive, fondation américaine à but non lucratif qui s’était donné l’objectif d’archiver le web dès le milieu des années 1990 et était pratiquement la seule organisation, à cette époque, disposant de l’infrastructure matérielle et logicielle permettant d’accomplir une tâche aussi dantesque à grande échelle.
IIPC avait alors pour but de créer des outils communs, de susciter l’émergence d’une communauté et d’alerter sur l’importance de l’archivage du web, afin que se mette en place une dynamique internationale qui assurerait la mémoire du web que nous connaissons.
Le propos introductif de Marc Weber, directeur du Computer History Museum, du colloque Time and temporalities of the Web, en fin d’année 2015, m’a fait réaliser que parmi les nombreux réseaux qui ont existé avant que le web ne finisse par s’imposer, comme Arpanet ou le Minitel par exemple, fort peu ont fait l’objet d’un effort de préservation ; en fait, seuls en ont bénéficié ceux dont les créateurs avaient conscience d’une perte de mémoire potentielle et se sont mobilisés pour sauvegarder leur propre objet.
Le travail d’Internet Archive dès 1996 puis l’investissement des bibliothèques nationales, qui ont cherché à se doter non seulement d’outils mais aussi d’un cadre juridique s’appuyant sur le dépôt légal et de procédures métier héritées de leur tradition professionnelle, ont doté le web d’une mémoire qui a en outre la qualité de ne pas être trop biaisée d’un point de vue historique, en tout cas moins que si elle avait été documentée uniquement par les créateurs du web eux-mêmes.
Avec la fondation d’IIPC, les bibliothèques nationales apportaient à la communauté de l’archivage du web un autre atout : leur capacité à organiser des processus de couverture documentaire au niveau international, comme elles l’avaient fait autrefois avec le contrôle bibliographique universel.

 

Aujourd’hui le consortium IIPC ce sont 50 membres venus de nombreuses régions du globe et dont le profil ne se limite plus aux bibliothèques nationales : des bibliothèques universitaires, des acteurs majeurs dans le domaine de l’audiovisuel ou encore des acteurs privés se préoccupent aujourd’hui de cette question. La conférence annuelle s’ouvre également, de façon de plus en plus prégnante, à des universitaires issus de différentes disciplines, pour lesquels les archives du web sont un objet d’étude et une source de premier plan.
Dans ce contexte, le consortium semble à présent traverser une deuxième crise de croissance (la première ayant eu lieu au moment où le consortium élargissait sa base de 12 membres fondateurs : pour en savoir plus sur l’histoire d’IIPC jusqu’en 2010, lire l’article de Gildas Illien dans le BBF). Ainsi les différentes sessions de l’assemblée générale et de la conférence, sans qu’un thème particulier leur ait été attribué, ont naturellement convergé vers une question récurrente : « how to collaborate » ? Tout le monde s’accordant à reconnaître que la collaboration était aujourd’hui un enjeu majeur et une aspiration généralisée, mais que le « comment » devenait compliqué à définir avec l’élargissement de la communauté, la multiplication de ses centres d’intérêt et de fait, parfois, des divergences de vues. Pour autant, les propositions de collaboration ont été foisonnantes et ont pris de nombreuses formes différentes :
Le panorama : avec plus de 50 institutions et 150 individus autour de la table, un des premiers enjeux réside dans le fait de savoir sur quels projets travaillent les uns et les autres afin de faire émerger des synergies potentielles. Harvard a réalisé récemment un « Web archiving environmental scan » : un travail de 5 mois pour explorer les pratiques de 23 institutions et en tirer 22 opportunités de travaux à conduire. L’idée qu’IIPC puisse être un forum pour mettre régulièrement à jour ce type de rapport et ainsi mieux communiquer sur les pratiques de ses membres a été émise.
Le développement open source : celui-ci reste au cœur des pratiques traditionnelles d’IIPC, et on perçoit aujourd’hui encore des attentes importantes à l’égard des outils majeurs comme le crawler Héritrix (robot qui moissonne les pages web) ou l’open wayback (outil d’accès aux archives web), perçus comme insuffisamment documentés et stabilisés.
Les API : les « gros » outils mentionnés ci-dessus, bien qu’utilisés très largement, sont perçus comme monolithiques et peu évolutifs au regard d’un web qui tend à se modifier techniquement plus rapidement qu’eux. Ainsi la collecte des réseaux sociaux ou encore des plateformes de vidéo sont aujourd’hui des challenges auxquels tout un chacun est confronté. L’idée de travailler sur une chaîne d’outils plus modulaire, souple et évolutive, dont les différentes briques seraient liées entre elles par des API avait déjà été soulevée par Tom Cramer l’année dernière. Mais elle s’est encore renforcée et précisée cette année.
Les normes et standards : fortement liés aux outils, les standards comme le format WARC et ses différents dérivés continuent à jouer un rôle important. L’effort de normalisation requiert la construction d’un consensus et fait donc partie des attentes à l’égard d’IIPC.
Les hackathons : L’exemple d’Archives Unleashed, présenté par Ian Milligan et Matthew Weber, a montré l’importance d’organiser des temps forts d’expérimentation réunissant développeurs, archivistes et chercheurs de toutes disciplines, non seulement pour faire émerger de nouvelles idées et projets de recherche, mais aussi pour mieux comprendre ce matériau particulier que sont les archives web et adapter les outils.
L’étude des usages : l’approche orientée utilisateurs n’est pas une nouveauté au sein de la communauté IIPC qui avait déjà rassemblé des use cases (une première fois en 2006 puis à nouveau en 2013). On a vu cependant émerger de nouvelles méthodes plus orientées études d’usage, comme l’utilisation de « personas » par les archives gouvernementales britanniques.
Les collections collaboratives : là aussi il y a un existant côté IIPC, avec les collections collaboratives qui se sont mises en place d’abord autour des jeux olympiques puis d’autres sujets (la grande guerre, la crise des migrants en Europe…) en utilisant depuis l’an dernier le service Archive It. On a vu cependant émerger d’autres propositions de modèles collaboratifs autour de la collecte, comme le projet Cobweb dont l’objectif est de mettre en commun les ressources de sélection et de collecte à travers un répertoire qui permettrait à chacun de proposer des collections à archiver et à différentes institutions de déclarer leurs collectes.
Le cloud : Brewster Khale, dans sa présentation de la « bibliothèque nationale d’Atlantis » (celle dont le logo est un mermaid cat), va plus loin et renoue avec le vieux rêve d’une grande archive internationale collaborative et reliée, en s’appuyant sur l’idée du cloud : une mutualisation des infrastructures, des ressources et des outils, permettant néanmoins à chaque bibliothèque nationale d’affirmer sa propre identité. On est très proche ici des idées que je présentais récemment au sujet des bibliothèques numériques. Brewster note aussi la difficulté croissante à démêler le web des autres ressources qui intéressent les bibliothèques (livres, revues, audiovisuel…), devenues elles aussi numériques et circulant sur le web, ce qui va nous obliger à penser des interfaces qui ne séparent plus le web du reste de la bibliothèque.

 

Et mon rôle de présidente, dans tout ça ? Le renouvellement de l’accord de consortium début 2016 a été l’occasion de remettre sur la table la question de la stratégie d’IIPC et ses ambitions, ainsi que de revoir sa gouvernance : ont ainsi été créés trois « portefeuilles » (« portfolios »), trois thématiques qui permettent d’appréhender le consortium sous trois angles différents : le développement des outils, l’engagement des membres et la recherche de nouveaux partenariats.
Ce changement amené par le précédent président, Paul Wagner de Bibliothèques et Archives Canada, pouvait paraître couler de source mais il a été reconnu par certains des membres les plus anciens du steering committee comme une étape essentielle, et avec raison. Il apporte en effet deux éléments qui seront sans doute clefs pour le développement d’IIPC à l’avenir : d’une part une gouvernance plus engagée, d’autre part une lisibilité de la stratégie qui devrait lui permettre de passer cette nouvelle étape de croissance, c’est-à-dire de cesser d’être un groupe ou un club exclusif réservé à quelques experts pour devenir une communauté, dans toute sa richesse et sa diversité.
Prenant le relais de Paul au 1er juin 2016, mon rôle sera d’accompagner cette nouvelle organisation et de l’installer dans le fonctionnement quotidien du consortium et en particulier du Steering Committee, avec pour ambition de transformer les idées en actions concrètes, même si celles-ci ont dans un premier temps une ambition limitée.
Sur ce je vous laisse, j’ai un « strategic plan » à rédiger ;-)

L’évolution du modèle d’agrégation de données dans les bibliothèques numériques

J’ai rassemblé dans ce billet quelques réflexions et observations qui m’ont été inspirées notamment par mes travaux au sein d’Europeana ces derniers mois. Tout est parti du sentiment diffus que l’agrégation telle qu’on la connaît actuellement est en train d’évoluer, même s’il est difficile de savoir vers quoi, car je n’ai pas lu de théorie très construite sur le sujet. Donc à défaut de l’avoir trouvée résumée ailleurs, je la propose ici aujourd’hui.

A l’origine…

Vers le milieu des années 2000, lorsque les bibliothèques numériques comme Gallica ou Europeana ont commencé à avoir l’ambition d’atteindre une masse critique, elles ont défini un modèle d’agrégation de données, c’est à dire une méthode permettant de rassembler dans une interface unique des données issues de plusieurs institutions. Ce modèle d’agrégation était essentiellement basé sur le protocole OAI-PMH, inspiré notamment par ce qui se passait dans la communauté des archives ouvertes.

Les principes de ce modèle sont relativement simples :

* du point de vue technique, le protocole OAI-PMH offre un cadre transverse aux professions de la documentation, du patrimoine et de l’information scientifique et technique. Conforme aux standards du web, il repose sur des normes simples à implémenter et des logiciels open source à peine plus complexes qu’une bête plateforme LAMP, à la portée de n’importe quel webmestre sachant un peu ce qu’il fait.
* du point de vue des métadonnées, le format Dublin Core dit « simple » avec ses 15 éléments facultatifs et répétables sert de dénominateur commun pour la convergence syntaxique (avoir des métadonnées qui « entrent dans le même moule » pour prendre une métaphore culinaire – mais la forme du moule ne garantit pas qu’on utilise la même recette pour la pâte à gâteau). Le fait de pouvoir y adjoindre n’importe quel format plus complexe du moment qu’il peut être exprimé en XML semblait au départ une consolation suffisante pour des usages plus avancés. On se repose enfin sur l’asynchronisme du système (moissonnage des métadonnées qui sont ensuite stockées dans un nouvel entrepôt pour construire des services) et sur des technologies de type moteur de recherche plein texte à facettes pour fournir le service d’accès.

* enfin du point de vue des contenus, des arguments politiques et institutionnels plaidaient en faveur d’une consultation des documents numérisés sur le site propre de chaque institution, ce qui lui permettait de préserver son image (sa « marque ») et son audience, généralement l’unique indicateur de succès d’un service de bibliothèque numérique.

Ce modèle d’agrégation a servi de base à la construction de la première version du portail Europeana, qui avait défini à cette fin le modèle ESE (Europeana Semantic Elements), une sorte de DC simple augmenté de quelques éléments de provenance. La simplicité technique du modèle a permis une implémentation rapide débouchant sur le moissonnage des métadonnées décrivant des millions d’objets culturels en seulement quelques mois : un « quick win », en quelque sorte. Dans ce modèle, l’interopérabilité sémantique (la fameuse recette de pâte à gâteau mentionnée plus haut) était assurée par des tiers appelés « agrégateurs », chargés pour un domaine national ou thématique de veiller à l’homogénéité des données grâce à des bonnes pratiques ou des traitements.

Ce que le web de données a changé au modèle d’agrégation

Cependant, quasiment à l’époque où ce modèle se mettait en place à grande échelle, on voyait déjà un autre modèle d’agrégation pointer le bout de son nez : le Linked Open Data (web de données en bon français).

Cela n’avait pas échappé aux concepteurs d’Europeana qui rêvaient de créer autre chose qu’un énième portail de métadonnées comme il en existait déjà beaucoup. Dans une démarche de long terme, le modèle de métadonnées EDM (Europeana Data Model) a été imaginé pour prendre la suite d’ESE en décuplant ses capacités. On pensait alors que l’interopérabilité par les liens, inhérente au web de données, était appelée à remplacer à terme l’agrégation par moissonnage.

Mais ce n’était pas si simple…

* du point de vue technique, le web de données apparaît comme la nouvelle génération qui a tout pour succéder à l’OAI-PMH : encore plus intégrée à l’architecture du web, elle transcende les frontières des métiers et des domaines et s’affranchit en théorie de toute les problématiques liées au stockage des données (car dans l’architecture du web, l’endroit où les données sont stockées est rendu abstrait par l’utilisation des URI et de l’hypertexte). Cependant, en pratique, la construction de nouveaux services à partir de ces données continue à nécessiter une forme de moissonnage ; or on ne dispose pas dans le web de données des mécanismes très pratiques fournis par l’OAI-PMH à cette fin (horodatage des données permettant de ne récupérer que les mises à jour, suivi des enregistrements détruits par ex.). Au final tout ce nouvel environnement technique faisait appel à des compétences qui n’allaient pas de soi pour les informaticiens, ce qui a pu freiner les réutilisations et l’agrégation de données utilisant ces principes au-delà de prototypes ponctuels.
* du point de vue des données, le modèle RDF présente l’avantage d’autoriser la description de de ressources non documentaires, les « entités » qui interagissent avec les documents : personnes et autres agents, sujets, lieux, périodes temporelles… Le web de données a contribué à réhabiliter ce qu’on appelait en bibliothèque les « données d’autorité », réaffirmant leur utilité voire leur caractère essentiel pour permettre l’interopérabilité non plus syntaxique mais sémantique (la pâte à gâteau, pas la forme du moule) des données. Le mythe du moteur de recherche magique qui serait capable, par des traitements automatiques, de compenser l’absence de tels référentiels s’est effondré quand on a constaté que les moteurs fonctionnaient quand même beaucoup mieux quand on y ingérait des données plus riches. L’inconvénient de ces modèles réside toutefois dans leur complexité, qui a pu dans certains cas freiner leur adoption, notamment en l’absence de compétences informatiques adéquates. Par ailleurs, la modélisation des vocabulaires ou ontologies destinés à représenter toute la richesse de l’information des institutions patrimoniales et scientifiques est une gageure qui résiste à toute tentative d’unification ou de consensus ; c’est d’ailleurs bien l’esprit du web de données, qui autorise la coexistence ou la cohabitation de plusieurs modèles reliés entre eux.

* du point de vue des contenus : RAS, ils ne sont pas vraiment concernés par cette phase et restent accessibles suivant des modalités plus ou moins similaires au modèle d’agrégation précédent.

Côté Europeana on peut mentionner, outre la mise en œuvre d’EDM au sein d’un nombre croissant de projets thématiques, la création d’un entrepôt en Linked Open Data permettant la redistribution des données en RDF et en SPARQL. Le portail lui-même a migré sous EDM en 2013 mais sa dernière version baptisée « Europeana Collections » ne tire pas encore tout le parti de la richesse du modèle.
A la BnF, data.bnf.fr est né mais reste un petit frère de Gallica se contentant de liens avec son aîné dont il ne bouleverse pas l’existence. Bref, on peut parler d’une phase « d’éveil » qui conduit à examiner sous un jour nouveau les possibles et à faire ressentir le besoin d’un vrai nouveau modèle d’agrégation, dépassant les limites de l’OAI-PMH et tirant les enseignements du web de données.

Vers un modèle de mutualisation

Dans un contexte de moyens contraints mais aussi d’évolution de la technologie et des usages, un nouveau modèle commence aujourd’hui à émerger, basé sur le principe de la mutualisation des investissements et notamment des infrastructures.
* du point de vue technique, ils s’agit de mutualiser les infrastructures du point de vue du stockage des données ou encore des traitements (conversions, diffusion…) Les données passent dans les mêmes tuyaux et les mêmes moulinettes, ce qui représente une économie à la fois en ressources machines et en développement d’outils. Des modèles de type cloud permettent d’effectuer cette mutualisation dans des espaces physiquement communs mais logiquement indépendants (façon moule à madeleines). Il n’y a donc pas forcément agrégation à ce stade, mais elle sera évidemment facilitée par la suite.
* du point de vue des données, l’ambition est de dépasser les contraintes liées à l’adoption d’un modèle ou format commun. On attend des outils nouveaux qu’ils soient suffisamment flexibles pour s’adapter à tous types de formats et qu’ils supportent facilement les conversions de l’un à l’autre : c’est la leçon tirée des étapes précédentes, qui ont démontré qu’il était toujours préférable de travailler les données dans leur format source, qu’aucun format « commun » même riche ne peut remplacer. Le web de données reste un modèle d’interopérabilité prometteur grâce aux URI, aux liens entre les ressources et à la sérialisation JSON-LD, beaucoup plus simple que les syntaxes précédemment utilisées pour exprimer le RDF. Des vocabulaires comme Schema.org visent à permettre de faire du web sémantique comme Monsieur Jourdain faisait de la prose.

* du point de vue des contenus : on commence dans la sphère culturelle à dépasser le paradigme qui voulait que les contenus, pour des raisons politiques, ne soient consultables que sur le site d’origine, position devenue intenable (si elle l’a jamais été) du point de vue des usages. Que ce soit par copie des fichiers ou via des API comme IIIF, qui fournit un mécanisme pour appeler de manière distante des images numérisées avec leurs métadonnées en JSON-LD, la tendance est à l’agrégation des contenus eux-mêmes dans l’interface commune, ce qui permet de mutualiser également les outils complexes que sont les visualiseurs de documents.

Gallica et Europeana, pour continuer sur ces deux exemples, ont toutes deux entamé une mutation progressive vers ce nouveau modèle. Du côté de Gallica, cela se concrétise par l’intégration de documents de partenaires qui n’avaient pas encore trouvé leur outil de diffusion et par la réalisation de bibliothèques numériques en « marque blanche », Numistral et la Grande Collecte. Côté Europeana, le nouveau portail Collections utilise IIIF pour présenter directement sur son site les médias numérisés, avec zoom en haute résolution et feuilletage le cas échéant.

Derrière cette modification en apparence ponctuelle, c’est en fait une refonte complète du modèle d’agrégation qui se profile du côté d’Europeana. Après avoir défini un cadre de publication (Europeana Publishing Framework) et, en partenariat avec DPLA, un cadre juridique, Europeana s’interroge actuellement via le forum des agrégateurs sur le rôle et la fonction de ces derniers. Le projet Europeana Cloud, qui s’est déroulé de 2013 à 2016, permet d’imaginer un avenir où de nombreuses fonctions de stockage et de traitement de données seront mutualisées dans une infrastructure commune, ce qui évitera aux agrégateurs de faire face aux mêmes problèmes en développant chacun des solutions différentes.

Le rôle des agrégateurs évoluerait alors vers une fonction de centre d’expertise au service d’acteurs plus modestes ou disséminés, qui les accompagnerait dans l’agrégation de leurs données directement dans l’infrastructure cible. On pourrait imaginer la centralisation de traitements coûteux et complexes à mettre en œuvre comme les alignements de référentiels ou les enrichissements automatiques de métadonnées. L’utilisation de mécanismes comme IIIF présente l’avantage de conserver la lisibilité des flux d’audience (on comptabilise tout de même des « hits » sur le site fournisseur) tout en favorisant des usages plus fluides. C’est la promesse de pouvoir non seulement centraliser dans les portails la visualisation des contenus, mais aussi constituer plus facilement des bibliothèques numériques de niche, agrégeant et éditorialisant des contenus sélectionnés à un niveau local.

En conclusion : aujourd’hui, demain ou après-demain ?

Sans vouloir avoir l’air de lire dans les entrailles de maquereau, ce que j’ai pu observer ces derniers mois me donne à penser que le nouveau modèle d’agrégation n’est pas encore tout à fait mûr et ne le sera pas avant au moins 3 à 5 ans. Il ne dit pas encore son nom et ressemble aujourd’hui à un patchwork d’initiatives en ordre dispersé dont il est assez difficile de voir le motif global, à moins de prendre beaucoup de recul, ce que j’ai essayé de faire ici. Certains aspects techniques relèvent encore de la promesse et demandent à démontrer leur faisabilité. On pourrait également avoir des surprises et voir de nouveaux dispositifs émerger. Cependant, je suis convaincue que l’on tendra inévitablement vers ce nouveau modèle qui s’installera d’abord en parallèle du modèle OAI-PMH, toujours efficace, et du web de données qui continue à se développer.
A suivre, rendez-vous dans 3 ans ?
En attendant, je me permets de vous solliciter, vous qui avez eu le courage de lire ce long billet jusqu’au bout :
– si vous avez encore le temps de faire de la veille et si vous connaissez d’autres exemples de modèles d’agrégation qui évoluent dans le même sens ou dans un sens différent,
– si vous en savez plus que moi sur les aspects techniques et que cela vous inspire des suggestions ou des réfutations,
– si vous agrégez des données et que ces perspectives vous parlent,
exprimez-vous dans les commentaires ci-dessous, vous aurez ma gratitude éternelle.