Papoter avec Molière ?

Utiliser la création artistique pour relever un défi scientifique et technique tout en nous plaçant face à des interrogations très humaines, tel était l’objectif du projet Litté_bot, financé par l’EUR ArTec. Le questionnement de départ peut paraître simple : si on entraînait une IA à partir des textes de Molière, pourrait-on engager virtuellement une conversation avec le dramaturge ou un de ses personnages ? Dans les faits, la création d’un agent conversationnel – ou chatbot – capable de soutenir un tel échange pose beaucoup de questions, parmi lesquelles la volumétrie (insuffisante !) du corpus de départ, l’imitation de la langue du XVIIe siècle, l’équilibre à trouver entre système ouvert ou fermé, ou encore le choix du bon modèle d’entraînement.

Finalement, c’est le personnage de Dom Juan qui a été mis en scène : vous pouvez vous entretenir avec lui dans le BOT°PHONE, un dispositif placé à la sortie de l’exposition Molière sur le site Richelieu de la BnF jusqu’au 15 janvier.

Mais si vous préférez le tester depuis votre salon, vous pouvez également accéder au dispositif expérimental en ligne.

Au final, ce qui est sans doute le plus fascinant, c’est d’écouter Rocio Berenguer, l’artiste qui est à l’origine du dispositif, expliquer comment elle a imaginé l’expérience et en donner son interprétation : « dans n’importe quelle situation, n’importe quel échange, en tant qu’humains, on va générer du sens. (…) C’est une capacité magnifique, une puissance à laquelle on ne donne pas assez d’importance. En fait, j’aimerais que l’échange avec une machine nous permette de nous rendre compte de la puissance de nos capacités cognitives à nous. »

Je me suis intéressée au projet dans le cadre de la feuille de route IA de la BnF, qui pose la question du rapport entre l’humain et la machine comme une problématique centrale. Pour en savoir plus, notamment sur les enjeux techniques du projet, vous pouvez consulter l’article sur le carnet Hypothèse de la BnF, l’interview de Rocio Berenguer dans L’ADN, ou encore regarder la présentation d’Anna Pappa pour AI4LAM. Merci à Arnaud L. pour les références :-)

Publicité

Le grenier

Oh trop fou ! Ce ne serait pas la clef de mon blog, coincée là entre une soutenance de thèse, une pandémie et un gros tas de bazar ? Elle est un peu rouillée, je me demande si elle marche toujours…

(Essuie la clef avec son écharpe et la glisse dans la serrure.)

Bah ! Pouah ! Kof kof kof ! Y en a de la poussière là-dedans !

(Écarte quelques toiles d’araignées et attrape le premier papier qui traîne.)

Oh ! Trop drôle, mon dernier billet ! Je parlais de la conférence Fantastic futures à Stanford… je faisais un teasing de dingue, j’y croyais vraiment, que j’allais organiser une conférence internationale en décembre 2020, ah ah ! Bon au final elle a bien eu lieu… avec un an de retard. Et puis c’était pas vraiment comme les conférences du monde d’avant, il faut bien le reconnaître… mais c’était chouette. Il nous reste les vidéos et les supports. Et le super article de Céline dans le BBF. Bon c’est sûr, plein de gens n’ont pas pu venir à cause de la crise, tout ça, mais on va jouer les prolongations pendant les community calls d’ai4lam les 15 février et 15 mars…

Tiens c’est quoi ce truc ?

(Ouvre un grand coffre rempli de paperasse.)

Oh !!! Ma thèse ! Enfin je veux dire, mon doctorat sur travaux. « Le numérique en bibliothèque : naissance d’un patrimoine : l’exemple de la Bibliothèque nationale de France (1997-2019). » Rien que ça. Genre, il y a deux fois deux points dans titre, je ne doute de rien, moi… Heureusement qu’ils n’interdisent pas les titres à rallonge pour mettre en ligne dans Hal, sinon j’aurais l’air maligne ! N’empêche, c’était sympa cette histoire d’émotions patrimoniales. J’en avais même fait un article dans la Revue de la BnF. Et puis la soutenance… une vraie soutenance dans la salle Léopold Delisle de l’Ecole des chartes, en présentiel comme on dit maintenant. Et sans masques ! On a revécu toute l’histoire de la BnF sur les 25 dernières années… d’ailleurs ça a atterri dans le livre sur l’Histoire de la Bibliothèque nationale de France qui sort cette année à l’occasion de la réouverture de Richelieu. Que des bons souvenirs, quoi.

(Se remet à fouiller à droite et à gauche.)

Il doit bien y avoir encore quelques trucs intéressants là-dedans… L’ouverture du DataLab en octobre 2021… Le Schéma numérique 2020 de la BnF… La recette du pain d’épices… Mais où est ce fichu… Ah ! Le voilà ! Il n’est pas beau, ce numéro de Chroniques spécial intelligence artificielle ? Si j’avais su il y a deux ans que cette technologie prendrait une telle place dans ma vie… En tout cas, les illustrations sont magiques et il contient un joli portrait professionnel de votre serviteuse. Cela fait quand même plus sérieux que le selfie pris dans mon bureau pour illustrer mon interview sur Europeana Pro ! Ah, le plaisir de fouiller dans les greniers pour retrouver de vieilles photos ! Il n’y a rien de tel.

Tiens, voilà autre chose…

(S’approche d’un mur couvert de post-its à moitié décollés.)

Mes challenges personnels pour 2022, tout un programme. « Arrêter de fumer… Publier ma thèse… Voyager au Danemark ou en Irlande… » T’as raison, l’espoir fait vivre. Et tiens, « Ecrire sur mon blog » ! Eh bien voilà au moins une case que je peux cocher. Restons positifs :-) (mais pas au Covid >_<)

Les fantastiques futurs de l’intelligence artificielle

La semaine dernière, j’ai eu la chance d’être invitée à me rendre à Stanford pour participer à la conférence Fantastic Futures, 2e du nom, un événement dont l’objectif était de faire émerger une communauté autour de l’intelligence artificielle pour les archives, les bibliothèques et les musées.

Spoiler : la communauté s’appelle AI4LAM, elle a un site web, des chaînes Slack et un groupe sur Google. Sinon, pour revoir la conférence, c’est par ici.

Cela ne vous aura pas échappé : l’intelligence artificielle est à la mode. On en parle à la radio, dans les journaux, des députés au style vestimentaire peu commun rédigent des rapports pour le Président de la République… et dans la communauté professionnelle, nous suivons le mouvement : voir par exemple la journée d’études du congrès de l’ADBU 2019 ou encore celle organisée hier à la BnF par l’ADEMEC (vidéos bientôt en ligne). Pourtant, si l’IA était une boîte de gâteaux, on pourrait écrire dessus « L’intelligence artificielle, innovante depuis 1956″…

Pour ma part, le sujet m’est pour ainsi dire tombé dessus, pour la 1e fois, quand on m’a invitée à participer aux Assises numériques du SNE en novembre 2017. Alors que nous préparions notre table-ronde, j’étais un peu dubitative sur ma participation, et j’ai été jusqu’à dire que de mon point de vue, la BnF n’utilisait pas encore en production de technologies d’intelligence artificielle. L’un des autres participants m’a alors dit « mais si ! l’OCR c’est déjà de l’intelligence artificielle ! » Et finalement, même si tout dépend de la définition (plus ou moins précise) que l’on en donne, ce n’est pas faux. Comme le disait Joanna Bryson à Stanford mercredi dernier, l’intelligence c’est la capacité à transformer une perception en action…

Que de chemin parcouru, pour moi, depuis 2017 !

En 2018, les explications de Yann Le Cun ont éclairé ma lanterne sur cette notion d’intelligence, de perception et ce qu’on appelle l’apprentissage (profond ou non, par machine ou pas !) L’exemple du Perceptron, sorte d’ancêtre de l’OCR, m’a permis de comprendre que mon manque supposé de familiarité avec l’intelligence artificielle relevait en fait d’un malentendu. Comme pour beaucoup de gens, l’intelligence artificielle évoquait pour moi une machine s’efforçant d’adopter des comportements plus ou moins proches de l’humain, l’un de ces comportements étant la capacité à « apprendre » comme le suggère le terme de « machine learning ».

Je me suis donc référée à Jean-Gabriel Ganascia pour tenter de désamorcer ces idées reçues et j’ai appris dans son opus daté de 2007 que la discipline informatique connue sous le nom d’ « intelligence artificielle » vise non pas à créer une machine dotée de toutes les facultés intellectuelles de l’humain, mais à reproduire de façon logique et mathématique certaines de ces facultés, de manière ciblée. Il y a autant de différence entre l’intelligence artificielle et l’humain qu’entre passer un OCR sur un texte et le lire…

Pendant que je plongeais dans ces découvertes, l’IA entrait bel et bien à la BnF, par la petite porte, celle de Gallica studio. Un peu plus tard, à la conférence Europeana Tech je (re)découvrais les rouages du prototype GallicaPix et obtenais encore d’autres exemples et explications avant d’en remettre une couche à LIBER 2018 (la répétition est l’essence de la pédagogie, n’est-ce pas…). Enfin, la première conférence Fantastic Futures était organisée en décembre 2018 à Oslo et inscrivait pour de bon l’IA sur notre agenda stratégique, à travers deux projets, l’un portant sur la fouille d’images dans Gallica dans la continuité de GallicaPix et l’autre sur la mise à disposition de collections-données pour les chercheurs dans le cadre du projet Corpus. J’ai même fini par intervenir sur le sujet dans un colloque organisé en octobre par les archives diplomatiques.

Me revoici donc en décembre 2019 à Stanford, prête à plonger dans le grand bain… Qu’ai-je retenu de ces 3 jours de conférence ?

D’une façon générale, cet événement fait apparaître l’idée que le sujet est encore assez jeune dans la communauté des bibliothèques, archives et musées. Alors qu’il existe une conviction solide et partagée que l’IA va transformer en profondeur la société, les méthodes de travail, et avoir un impact significatif sur nos institutions, la mise en pratique reste encore largement expérimentale.

Trois types d’acteurs ont néanmoins proposé une vision concrète, voire des réalisations effectives :

  • les acteurs de l’industrie, qui font état d’un déploiement déjà très avancé dans différents secteurs,
  • les acteurs de la recherche, qui multiplient les projets autour de données diverses, notamment celles des collections spécialisées qui se prêtent tout particulièrement à de telles expérimentations
  • enfin dans le domaine de la création artistique, à travers un artiste qui utilise l’IA dans le cadre d’une démarche d’interrogation sur la société et les rapports humains.

En termes de projets, deux types d’initiatives sont observables dans le domaine de l’IA pour les LAM.

En premier lieu, celles qui visent à mettre des données et collections numériques à disposition des chercheurs à des fins de fouille de texte et de données, en utilisant le machine learning. On peut citer par exemple le Lab de la Bibliothèque du Congrès qui a récemment obtenu un financement de la Mellon pour une expérimentation à grande échelle dans ce domaine. Certains de ces projets conduisent à développer des outils permettant aux chercheurs de s’approprier les modèles d’apprentissage ou des interfaces innovantes comme PixPlot, développé par le laboratoire d’humanités numériques de Yale, qui permet de manipuler des corpus de plusieurs milliers d’images que l’IA regroupe par similarité.

À l’exemple du prototype « Nancy » de la Bibliothèque Nationale de Norvège, d’autres projets visent en revanche l’automatisation de tâches actuellement réalisées manuellement par les bibliothécaires. Toutefois, Nancy reste une initiative expérimentale qui, si elle démontre efficacement les apports potentiels de l’IA pour le traitement des collections, serait très difficile voire impossible à industrialiser telle quelle sur la production courante. De même, les projets de traitement des collections du IA studio de la bibliothèque de Stanford, l’un d’eux portant sur une collection de romans du 19e s. numérisés mais non catalogués, s’attachent au traitement d’un corpus clos et bien défini et sont en réalité hybrides avec la catégorie précédente, car ils mobilisent également des chercheurs au travers de projets ciblés.

Pour finir, je retiendrai un certain nombre de thématiques phares qui sont revenues à plusieurs reprises, aussi bien dans la conférence elle-même que dans les workshops ou la « unconference » :

  • Les questions éthiques, bien connues en dehors de notre communauté mais abordées ici avec l’idée que des institutions publiques comme les bibliothèques pourraient devenir un acteur important pour porter cet enjeu au regard de l’industrie. L’idée de doter les projets d’un “plan de gestion éthique” comme on a des “plans de gestion des données” a émergé pendant le workshop que je co-animais.
  • Les enjeux de qualité des données, avec là aussi l’idée que les bibliothèques ont un savoir-faire qu’elles pourraient mobiliser pour apporter à l’industrie des jeux de données de qualité pour l’entraînement du machine learning.
  • Le développement d’interfaces graphiques, nécessaires pour comprendre les IA, les manipuler et interpréter les résultats (cf. PixPlot ci-dessus)
  • La formation, avec notamment l’exemple finlandais : l’IA est un enjeu global de société et chacun devrait pouvoir se former pour comprendre ce dont il s’agit. A cette fin, un cours en ligne a été mis en place, visant 1% de la population du pays. Une extension internationale du projet est en cours, avec sa traduction dans les différentes langues de l’Union Européenne.
  • Enfin les outils, données et modèles, avec un enjeu d’échanges et de mutualisation au sein de la communauté et un focus sur les documents spécialisés (manuscrits, images et cartes notamment, mais aussi son et vidéo). Le lien de ces problématiques avec IIIF a été constamment mis en avant.

Nous nous sommes quittés après 3 jours riches et intenses sur l’annonce de la création de la communauté AI4LAM que j’ai mentionnée plus haut. Et mon petit doigt me dit que mes futurs n’ont pas fini d’être fantastiques… Prochaine étape le 3 février dans le cadre du séminaire DHAI de l’ENS, où Jean-Philippe et moi présenterons les deux initiatives phares de la BnF dans ce domaine.

Qu’est-ce que le numérique ?

Cette année, mon été est particulièrement studieux. J’étais donc au bord de la piscine, en train de lire le petit opus de Pierre Mounier Les humanités numériques paru en 2018 à l’issue du séminaire organisé à l’EHESS avec Aurélien Berra, quand je suis tombée sur cette phrase qu’il place sous la plume de Milad Doueihi : « le numérique se fait culture et modifie (…) notre rapport au monde et aux autres hommes, dans toutes ses dimensions ».

Comme cela faisait plusieurs jours que je réfléchissais à ce que pourrait être une définition du numérique, dans le contexte des bibliothèques en général et de la mienne en particulier, je me suis dit que j’allais partager ici cette pensée estivale.

On trouve une pléthore d’auteurs qui, depuis le début des années 2000 environ (je prends si vous avez des références plus anciennes) annoncent que le « numérique » est une révolution dont l’ampleur est comparable à celle de Gutenberg, voire plus importante. Ces auteurs analysent cette évolution sur différents plans : documentaire, scientifique, social… mais ce que je trouve intéressant ici, c’est l’idée d’un impact global embrassant et dépassant tous ces aspects. Il est un peu vain de chercher à définir si l’émergence du livre imprimé – et son impact sur la diffusion des connaissances, des idées et d’une façon plus générale, sur l’évolution des sociétés occidentales – a été « plus » ou « moins » importante que ne l’est celle du « numérique ». Ce qui est intéressant, c’est de reconnaître cet impact culturel, au sens large du mot culture qui englobe toutes les pratiques, connaissances, normes et traditions qui sous-tendent globalement le fonctionnement de la société.

Vu comme une « culture » qui modifie notre rapport au monde, le « numérique » embrasse plusieurs aspects, sans se confondre avec eux. Ils en sont plutôt, à mon avis, des composantes.

Tout d’abord, l’informatique ou plutôt, la micro-informatique telle qu’elle a commencé à conquérir les foyers et les bureaux depuis les années 1980, pour aboutir aujourd’hui dans tous les terminaux « mobiles » (smartphones, etc.) et les objets connectés (montres etc.) qui ne feront que se développer encore davantage. Dans le contexte des bibliothèques et de l’édition, on a pu parler également « d’électronique ». Il s’agit d’une technologie, qui se répand, se perfectionne et se développe, condition nécessaire à l’émergence d’une société numérique, comme la machine à vapeur a été nécessaire à l’émergence d’une société industrielle.

Ensuite, Internet et le web. Les deux ne se recouvrent pas mais le premier est nécessaire au fonctionnement du second, et le second est et a été l’instrument de la démocratisation du premier. Pour qu’une véritable culture numérique puisse émerger, il faut ajouter un autre ingrédient, survenu quelques années après la création du web : la connectivité permanente, partout et tout le temps, pour un coût devenu aussi négligeable – ou en tout cas intégré à nos vies – que l’électricité. Au point qu’être connecté devient aussi indispensable et naturel qu’avoir le chauffage ou la lumière.

Enfin, il y a le « digital » et le « virtuel », qui ne sont pas seulement des mots, des presque synonymes, mais témoignent d’une réalité : l’appropriation du numérique dans certaines pratiques, usages et expériences de la vie.

Entre « digital » et « numérique », il y a davantage qu’un problème d’anglicisme : l’étymologie confère à « digital » une proximité avec la main, les doigts, et donc la dimension artisanale du numérique : quelque chose que chaque individu peut exercer avec ses mains, un outil du quotidien. C’est aussi cette acception qui à mon avis prévaut derrière la « transformation digitale » des entreprises (terme banni depuis longtemps, s’il a jamais été utilisé, dans les bibliothèques). Ainsi, le sens originel de « numérique » fait référence à la dimension mathématique de l’informatique (les zéros et les uns) et se traduirait par « computing » en anglais, tandis que le « digital » anglo-saxon correspondrait à notre « numérique » au sens large. Ce qui ne nous dit pas comment traduire en anglais ce « digital » au sens restreint de « avec les doigts », que l’on utilise parfois en français… Si quelqu’un a une idée !

Quant à « virtuel », il témoigne de l’idée que le numérique a fait émerger dans nos vies des dimensions immatérielles, qui paraissent réelles à nos sens et à nos cerveaux, et même à nos émotions, tout en étant totalement dématérialisées. Prenons par exemple la « réalité virtuelle » : elle n’a rien d’une réalité, il s’agit plutôt d’une sorte de cinéma interactif très performant, qui parvient par l’immersion des sens à nous approcher beaucoup plus près de l’illusion de la réalité qu’un écran en 2 dimensions ou même équipé de lunettes 3D. Le « virtuel » nous immerge dans un monde qui ressemble au nôtre mais est construit de toutes pièces. Si on s’intéresse aux réseaux sociaux, où émergent des dimensions virtuelles liées aux émotions (comme l’amitié virtuelle entre deux personnes qui ne se sont jamais rencontrées « IRL »), le monde « virtuel » apparaît même comme un prolongement ou une extension de celui que nous expérimentons physiquement et spatialement, mais qui, dans les interactions sociales qu’il suscite, est tout aussi « réel ». Ce monde virtuel est aussi un monde d’infini possibles, de potentialités illimitées parce qu’elles sont libérées des contraintes du monde physique.

Le numérique c’est donc tout cela : une technologie faite de terminaux et de réseaux, et son appropriation par les humains dans toutes les dimensions : corporelle, émotionnelle et sociale.

Le numérique n’est donc pas qu’une technologie. Pour en revenir à Gutenberg, l’imprimerie à caractères mobiles n’a pas suffi à elle seule à faire émerger une culture de l’écrit. Celle-ci a pris une nouvelle ampleur lorsqu’on a su fabriquer le papier de manière industrielle, pour un coût très bas. Le livre imprimé a permis, in fine, non seulement à presque tout le monde d’apprendre à lire, mais aussi à écrire, avec les doigts. Des infrastructures comme la poste ont permis de véhiculer l’écrit dans le temps et l’espace, jusque dans l’intime de nos vies. La société s’est ainsi transformée pour augmenter encore la disponibilité de l’écrit, et l’écrit a transformé tous les aspects des relations sociales et les règles qui régissent le monde. La question de la « culture numérique » est donc de savoir si on assiste à un changement de la même ampleur, dans un laps de temps beaucoup plus resserré.

Finalement, au vu de cette définition, que faire du « numérique en bibliothèque » ou du numérique patrimonial ? Dans notre profession, nous utilisons parfois le terme « numérique » pour désigner les collections qui partagent cette caractéristique : acquisitions électroniques, documents numérisés, archives du web etc. (notez l’emploi des différents termes…) Il s’agirait donc encore d’une autre acception. Finalement, le « numérique » en bibliothèque est aussi imprécis que le mot « livre » qui recouvre en fait plusieurs réalités : « le livre » au sens de la culture de l’écrit, et « les livres » au sens des collections.

Reblog : les technos du Web sémantique ont-elles tenu leurs promesses ?

Il y a quelques années, quand j’ai proposé à Gautier et Antoine de publier au Cercle de la librairie une synthèse de ce que nous avions appris en pratiquant avec ces technologies, mon objectif était de stabiliser nos connaissances dans un manuel, afin de les rendre réutilisables. C’est ainsi qu’est né Le web sémantique en bibliothèque, le livre, fin 2013. J’espérais aussi qu’on pourrait arrêter de se répéter en formation et que cela nous aiderait à passer à autre chose…

Je ne pensais pas si bien dire, puisque dès l’année suivante, j’écrivais « qu’il ne serait ni possible, ni utile de former tous les catalogueurs ou tous les bibliothécaires au Web sémantique« . Nous avons poursuivi cette réflexion au fil des conférences et formations, adaptant petit à petit notre discours à un nouveau constat : les technologies du Web sémantique ne répondraient pas à tous nos espoirs, et devaient trouver leur juste place dans le paysage de la donnée d’une manière plus générale. Un constat parfois amer, quand il s’agissait d’y renoncer dans le contexte de la production, parfois plein d’espoir quand les grands acteurs du web les intégraient dans leur stratégie d’interopérabilité.

Gautier revient aujourd’hui sur cette réflexion avec une somme en 4 articles, dont la lecture est indispensable pour qui veut comprendre l’évolution de notre pensée ces 5 dernières années s’agissant de cette technologie que nous avons longtemps mise en avant :

Le Web sémantique nous aide-t-il vraiment à améliorer la visibilité des ressources patrimoniales sur le Web ? Pourquoi le Linked Entreprise Data n’a-t-il pas révolutionné la conception des systèmes d’information ? Dans quels cas l’investissement dans un mapping vers RDF en vaut-il la peine ? Comment peut-on continuer à défendre les modèles orientés entités si on ne veut plus les implémenter en RDF ? Vous trouverez réponse à ces questions et bien plus sur Les Petites Cases.

Vous l’avez compris, je souscris largement aux conclusions qu’il présente et que nous partageons dans notre cadre professionnel, dans les formations que nous assurons ensemble ou chacun de notre côté, et dans notre salon ;-) Mais j’apporterais peut-être quand même pour ma part une nuance ou un complément d’information.

Dans son 2e billet, Gautier revient sur les limites d’OAI-PMH et dans sa conclusion, il remet en cause l’idée de décentralisation en arguant qu’elle est illusoire en l’état actuel de la technologie. L’OAI-PMH, malgré ses faiblesses, est un modèle qui fonctionne bien parce que justement, il procède par recentralisation des données qui ont été moissonnées. Or, la communauté patrimoniale à l’heure actuelle se focalise sur le développement d’un standard qui vise à réaliser la décentralisation des bibliothèques numériques en termes de contenus : IIIF. Dans une démarche caractéristique de la manière dont la communauté appréhendait le Web sémantique il y a 5 ans, IIIF utilise certains éléments de la technologie – les URI, le JSON-LD – sans se réclamer du Web sémantique ou du Linked Data. Pour Gautier, le choix de JSON-LD est anecdotique et relève d’un espoir qu’on avait à l’époque : que ce genre de détail ferait « cheval de Troie » pour installer la technologie. Pour moi, il témoigne d’une forme de maturité qui replace les briques de la techno à leur juste place dans un ensemble plus large. Néanmoins, le problème est toujours le même : pour exploiter les données, même avec IIIF, il faut rencentraliser les métadonnées. Et pour les recentraliser, il faut qu’elles soient homogènes ce qui exige soit de se mettre d’accord sur une syntaxe commune quelle qu’elle soit, soit de faire des conversions ou mappings…

En fin de compte, ce détail montre que la communauté patrimoniale est encore en train de réfléchir à son modèle d’agrégation des données. L’interopérabilité reste le principal (l’unique ?) cas d’usage du Web sémantique, et les portails ont encore de beaux jours devant eux. Nous garderons donc un œil attentif dans cette direction…

What is a lab ?

Mes pérégrinations autour du projet Corpus continuent (pour ceux qui n’auraient pas suivi les épisodes précédents, ils se trouvent ici et ). Les 13 et 14 septembre derniers, j’ai ainsi participé à une rencontre à la British Library sur le thème : « Building Library Labs« . Organisé par l’équipe du British Library Labs, ce séminaire a réuni plusieurs dizaines de bibliothécaires et chercheurs pour des ateliers de réflexion sur ce qu’est un « Lab » en particulier dans les bibliothèques nationales, à quoi ça sert, comment on le fait tourner et ce qu’on y fait.

Je serais bien en peine de résumer en détail les discussions très riches qui ont eu lieu lors de cette journée, mais parce qu’un joli dessin vaut mieux qu’un rapport de 150 pages (ou pas, enfin je vous laisse juger…) j’ai tenter de sketchnoter ce qui me semblait le plus important à retenir.

Pour transcrire tout ça en quelques mots : j’ai trouvé qu’il ressortait de ces journées une forme de consensus à la fois autour de l’approche proposée, de ses objectifs et de la définition de ce que peut être un « Lab » dans une bibliothèque nationale. En gros, toutes ces institutions investissent depuis 10 ans ou plus dans la constitution de collections numériques massives, et souhaitent à présenter développer des usages nouveaux de ces collections, en s’appuyant sur les possibilités ouvertes par l’outil informatique (genre TDM mais pas seulement).

Les bibliothèques nationales sont un peu différentes des bibliothèques universitaires : elles ne bénéficient pas toujours d’un bassin de population cible attribué (chercheurs et étudiants), mais par contre elles ont ces masses de données, plus ou moins accessibles, plus ou moins bien documentées, qui ne demandent qu’à rencontrer des usagers. Du coup, le public cible des « labs » n’est pas seulement composé de chercheurs, mais aussi d’artistes, d’entreprises, de développeurs, d’archivistes… et surtout, surtout, des bibliothécaires eux-mêmes : les collègues sont les premiers bénéficiaires du Lab.

Les composantes essentielles des Labs sont les données, qu’on cherche à diffuser de la manière la plus efficace possible, en les documentant et les assortissant d’exemples concrets. Le fait de proposer un site web comme point d’accès à tout cela est une première étape, voire dans certains cas un but en soi. Certains ont un lieu physique, d’autres non, mais tous organisent des événements, de différentes natures, essentiels pour faire communauté.

Une autre caractéristique majeure des Labs réside dans leur dimension expérimentale. Différents dispositifs, qu’il s’agisse d’appels à projets, de hackathons ou autres, conduisent à la création, en coopération entre bibliothécaires et chercheurs, de réalisations qui ne sont pas forcément vouées à durer. On s’autorise l’échec et on multiplie les outils et les compétences diverses pour réussir ces expérimentations sans avoir la pression des longs projets exigeants dont on a davantage l’habitude dans nos institutions.

Plusieurs bibliothèques pilotes en la matière, notamment la British Library et la KB aux Pays-Bas, ont raconté le « voyage » qui les a conduits où ils sont aujourd’hui. On a voyagé sur les routes de Grande-Bretagne avec le premier « roadshow » de nos collègues anglais, ri avec le créateur du premier et très basique site web de la bibliothèque néerlandaise. Et ensuite, on a tenté de mettre en commun nos approches dans un Google Doc gargantuesque qui devrait être transformé en livre dans les mois à venir. Vous pourrez aussi retrouver les vidéos sur la chaîne Youtube du BL Labs prochainement.

Côté BnF, le rapport d’Eleonora Moiraghi sur les besoins des usagers du futur service d’exploration des données propose des pistes de réflexion convergentes avec ces approches. Le carnet de recherche de la BnF relate les différents ateliers organisés dans le cadre du projet Corpus. Et le site API et données propose déjà une vue d’ensemble des données disponibles et des moyens d’y accéder.

Ma folle semaine embarquée dans la recherche

Je ne sais pas trop ce qui s’est passé avec mon agenda, j’ai dû avoir un bug dans la gestion des invitations, mais par un curieux hasard, faisant suite à ma présentation à Berlin en août, je me suis retrouvée à vivre une semaine presque entière immergée dans la problématique de la relation entre bibliothèques et chercheurs, abordée sous  différents angles. J’ai donc en gros raconté cinq fois la même chose en huit jours, ce dont je m’excuse auprès des collègues qui auraient assisté à plusieurs sessions, mais je crois que vous n’êtes pas très nombreux grâce au miracle de la géographie et à celui des silos institutionnels.

Tout a commencé vendredi 13 octobre à Francfort où, à l’occasion de la Foire du livre qui avait la France pour invité d’honneur, le CRL a organisé un symposium sur le thème « New Directions for Libraries, Scholars, and Partnerships: an International Symposium« . Rassemblant des bibliothécaires, surtout américains mais aussi originaires du monde entier, spécialisés dans les études de l’aire géographique romane, le symposium s’intéressait à l’évolution des services que les bibliothèques offrent aux chercheurs. Le terme de service, ici, n’est pas anodin : on évolue vers une logique moins centrée sur les collections et plus tournée vers les divers besoins que les chercheurs expriment : outils, méthodes, accompagnement, expertise, mais aussi numérisation et constitution de corpus numériques, négociation de licences d’accès à des ressources numériques, plans de gestion de données, etc. Le programme faisait une large place à divers exemples de projets mobilisant des technologies numériques et la session de posters était aussi remarquablement riche dans ce domaine.

Sautant dans un train tardif, je suis vite rentrée à Paris pour participer le samedi à la journée d’étude organisée par l’ADEMEC à l’Ecole des chartes, sur le thème « Humanités numériques et données patrimoniales : publics, réseaux, pratiques ». Je ne peux que souligner l’extraordinaire qualité de cette journée qui a été abondamment twittée et dont vous retrouverez le Storify ici et les captations vidéos là. J’en retiendrai tout particulièrement l’intervention conclusive de Paul Bertrand, qui a invité les institutions patrimoniales à inventer une critique externe de la donnée, permettant de la contextualiser et de la qualifier afin qu’elle devienne un objet d’étude et d’analyse maîtrisable et maîtrisé.

Retour à la maison le lundi pour un atelier ouvert que nous organisions avec des collègues du projet Corpus (special thanks to Jean-Philippe et Eleonora) et avec les chercheurs de l’équipe Giranium du CELSA, qui est notre équipe « compagnon » sur le projet cette année. L’atelier avait pour thème « Décrire, transcrire et diffuser un corpus documentaire hétérogène : méthode, formats, outils » et a permis à des équipes de chercheurs issues de différentes disciplines et travaillant sur des périodes  chronologiques parfois lointaines d’échanger sur leurs méthodes de travail communes dans le monde numérique. Nous vous préparons un petit billet de blog pour synthétiser tout cela, à suivre sur le carnet de recherche de la BnF [edit : c’est en ligne !].

Hop hop, je saute à nouveau dans le train pour me rendre à Lille, où se déroule la journée d’études de l’ADBU : « Les bibliothécaires, acteurs de la recherche« . On retrouve nos collègues allemands et hollandais avec leur préoccupation de développer, dans les bibliothèques universitaires, des « services support aux chercheurs » qui vont de l’accompagnement dans l’étape de l’appel à projets jusqu’à la préservation des données de la recherche. Et en France, beaucoup de choses aussi : des bibliothèques qui publient des revues en open access, qui accompagnent les chercheurs dans la constitution des corpus et la qualification des données, qui animent des communautés ou encore produisent des études bibliométriques.

Pendant ce temps, à Paris, le colloque « Humanités numériques et Sciences du texte« , organisé par le DIM Sciences du texte et connaissances nouvelles, avait déjà commencé. Forcément, je n’y étais pas, je n’ai pas encore le don d’ubiquité, mais je les ai rejoints le vendredi pour la dernière journée. En regardant le programme, on perçoit le message que les organisateurs ont tenté de faire passer : l’idée des humanités numériques comme une communauté de pratiques transdiciplinaire, s’exprimant à travers une grande diversité de méthodes et de problématiques. J’ai été entre autres ravie d’entendre Dominique Cardon expliquer en live les théories que j’avais lues avec beaucoup d’intérêt dans son ouvrage À quoi rêvent les algorithmes. Il faudrait que je revienne dessus dans un autre billet parce que là, ce serait un peu long.

Au final, qu’est-ce que je retire à chaud de cette folle semaine ? D’abord, l’évidente actualité de la question des humanités numériques à la fois dans la profession et chez les chercheurs qui sont nos partenaires naturels. Je ne suis pas très fan de ce terme mais j’avoue que pour moi, quelque chose de cohérent commence enfin à se dessiner. Vue de ma fenêtre à la BnF, cette chose peut se résumer de la manière suivante : le concept du « data librarian » tel qu’on l’annonce depuis plusieurs années dans la profession commence à être identifié par les chercheurs comme une ressource. Il y a encore du travail mais petit à petit, notre image change et on est de plus en plus perçus dans notre rôle de « passeurs » autour des collections numériques, parce qu’on connaît leur contenu, leur format, les outils qui permettent de les exploiter, les métadonnées qui permettent de les contextualiser et le retour d’expérience des autres chercheurs avec lesquels on a déjà travaillé. Comment s’empare-t-on de ce rôle de passeurs ? Il y a plusieurs formes : accompagnement, partenariat, service, plateforme, laboratoire… les modalités sont encore à inventer, ce qui nous promet quelques années passionnantes pour le futur.

Disclaimer : il semblerait que quelqu’un qui me connaît bien ait profité de l’un de ces événements pour enrichir ma biographie d’un élément non validé. Alors pour ceux qui se posent la question, non je ne me lance pas dans la rédaction d’une thèse ! Par contre, on m’a parlé récemment d’un dispositif de doctorat sur travaux qui m’intéresse bien et pourrait déboucher sur quelque chose. À suivre…

Plongée dans les humanités numériques à Berlin

Cette année, mes pérégrinations estivales ne m’ont pas conduite à l’IFLA en Pologne (coucou à ceux qui y sont !) mais « seulement » à l’une des conférences satellites, organisée par la section des Bibliothèques académiques et de recherche conjointement avec DARIAH et LIBER. Cette conférence, qui s’est donc tenue à Berlin du 15 au 17 août, avait pour thème Digital Humanities – Opportunities and Risks: Connecting Libraries and Research et j’étais invitée à présenter l’une des deux « keynotes », l’occasion pour moi de parler du projet Corpus qui est l’un de mes centres de préoccupations phares du moment.

iflaDH

La conférence a commencé par une intervention introductive de Toma Tasovac, directeur du Centre pour les Humanités Numériques de Belgrade à qui a été posée la difficile question : comment peut-on définir les humanités numériques ? Il répond : avec réticence. Les humanités numériques ne sont pas une discipline, mais une communauté de pratiques.

Les présentations de la journée suivante ont brillamment illustré la diversité des pratiques en question, de l’organisation d’un éditathon dans Wikipédia à la création d’une collection d’archives web en histoire de l’art, de l’exploration approfondie d’un poème d’Apollinaire à la création d’un site collaboratif documentant le patrimoine architectural brésilien. Dans ma propre présentation, j’ai donné plusieurs exemples de projets dans lesquels la BnF a été impliquée, qui posent pour la bibliothèque la question de la mise à disposition de corpus numériques massifs dans le contexte de la science numérique (digital scholarship – expression que je trouve plus inclusive que celle d’humanités numériques, car certains des projets sur lesquels nous travaillons ne viennent pas des humanités). Ruth Wallach est revenue sur cette question de savoir « qui en est, qui n’en est pas » en citant Stephen Ramsay : sommes-nous tous des « edupunks » qui faisons des humanités numériques à la mode artisanale, avec les moyens du bord ?

Cependant, en tant que satellite de l’IFLA, cette conférence ne s’intéressait pas aux DH en soi mais en tant qu’elles questionnent le rôle des bibliothèques. Dans sa présentation, Toma Tasovac a appelé de ses vœux des bibliothèques numériques qui offriraient un accès aux textes non pas comme des objets statiques, mais sous la forme de services et de workflow, permettant non seulement de les utiliser de façon flexible via des API mais aussi de reverser les enrichissements réalisés par les chercheurs.

Sur ce dernier point, il prenait l’exemple de l’OCR en rappelant qu’il « ne faut pas avoir honte d’un mauvais OCR » mais qu’il est par contre important de permettre aux chercheurs de le corriger.

Dans ce contexte, les bibliothèques numériques sont vues comme des infrastructures qui doivent permettre aussi bien la lecture rapprochée que distante (close reading, distant reading). Elles partagent avec les DH l’enjeu de l’interopérabilité et de la communication. Certaines données peuvent être d’accès restreint (Toma utilise l’excellent euphémisme shy data) mais il est important d’expliciter les conditions de leur usage par les chercheurs : c’est le but de la future « Charte de réutilisation des données culturelles » que DARIAH et Europeana sont en train d’élaborer. Si ce sujet vous intéresse, je vous engage à répondre au sondage en cours sur les principes de la charte.

S’est également posée la question de savoir quelle formation il serait nécessaire de donner aux bibliothécaires chargés de ces questions. Lotte Wilms, qui travaille au Lab de la KB (Pays-Bas), a présenté un programme de formation sur 5 jours, qui se tiendra à la rentrée, et dont les composants essentiels rappellent fortement ce qui pourrait être la formation de base d’un data librarian...

Si vous souhaitez en savoir plus, voire rejoindre la communauté des « DH librarians », sachez que deux groupes de travail sont en train de se monter, de façon complémentaire : un groupe « libraries » au sein de DARIAH piloté par Tamara Butigan et Sally Chambers, et un groupe « Digital Humanities » au sein de LIBER piloté par Lotte Wilms et Andreas Degkwitz (plus d’infos ici). A suivre donc, l’un des prochains épisodes étant le symposium auquel je participe à Francfort en octobre : New Directions for Libraries, Scholars, and Partnerships: an International Symposium et peut-être plus près de vous géographiquement, la journée d’études de l’ADEMEC à Paris le 14 octobre : Humanités numériques et données patrimoniales : publics, réseaux, pratiques. Venez nombreux, en plus c’est gratuit !

LD4P : un « grand soir » pour les bibliothèques américaines ?

 

La semaine dernière, j’étais invitée par Stanford à participer, en tant qu’expert, à un atelier du projet LD4P (Linked Data For Production). Ce projet financé par la Mellon Foundation a pris la suite d’un précédent projet nommé LD4L (Linked data for Libraries) ; il s’agit cette fois d’une initiative conjointe de plusieurs grandes bibliothèques universitaires américaines (Stanford, Harvard, Cornell, Columbia, Princeton) et de la Library of Congress, qui vise à développer concrètement le catalogage « en linked data » pour reprendre leurs propres termes. L’objectif du meeting était de présenter les résultats du projet à ce jour et d’obtenir le retour de la communauté. Une bonne occasion pour moi de remettre à jour mes connaissances sur ce sujet et de mieux comprendre le positionnement des bibliothèques américaines dans la transition bibliographique aujourd’hui.

Le projet LD4P se découpe en fait en plusieurs sous-projets qu’on peut classer en trois catégories :
– ceux qui visent à développer l’ontologie Bibframe et ses extensions,
– ceux qui travaillent sur le processus de catalogage

– ceux qui travaillent sur les outils.

Souvenez-vous, Bibframe c’est ce standard dont l’ambition est de remplacer les formats MARC. Développé et maintenu par la Library of Congress, il est actuellement dans sa version 2.0. – cette nouvelle version parue en avril 2016 est d’ailleurs l’un des livrables du projet.

Comme je le soulignais déjà en 2014, Bibframe constitue un cadre assez générique pour la description de documents de bibliothèque. L’un des objectifs de LD4P est donc de compléter cet effort de modélisation afin de permettre son implémentation concrète, en commençant plutôt par des documents spécialisés (documents cartographiques et géographiques, livres rares, image animée, musique jouée etc.). Le présupposé est qu’il est préférable de partir de cas complexes qu’on pourra ensuite généraliser pour des documents plus simples, plutôt que de commencer par le livre et ensuite se retrouver en difficulté face aux documents spécialisés.
Ce travail a donné naissance à une version dérivée de Bibframe nommée Bibliotek-o ainsi qu’à plusieurs extensions pour les types de documents pré-cités. Il faut cependant noter que certains services, comme le réseau Library.link, utilisent encore d’anciennes versions de Bibframe (Bibframe 1.0 ou Bibframe lite).

Tout ceci débouche sur une prolifération de modèles plus ou moins divergents qui inquiètent les porteurs du projet, ceux-ci se demandant si on ne serait pas en train de constituer de nouveaux silos. Contrairement à ce que laissait espérer le web sémantique tel qu’on l’envisageait au départ, on en arrive à la conclusion qu’on est loin d’être débarrassés des problématiques de conversion, transformation et recopie de données.

Du côté des outils, ce n’est donc pas seulement la question du convertisseur MARC -> Bibframe ou de l’éditeur de données en RDF qui se pose, mais aussi celle de toute la galaxie des outils qui vont permettre de traiter, réconcilier, aligner, contrôler, enrichir, convertir, diffuser et exploiter ces données dans leur nouveau format qui se pose. Les partenaires du projet ont commencé à établir un registre des outils disponibles qui ont été évalués dans ce cadre.

Un des aspects les plus intéressants de LD4P est à mon avis le sous-projet « tracer bullets » qui ambitionne d’articuler plusieurs de ces outils pour démontrer la faisabilité d’une implémentation de bout en bout, pour un sous-ensemble de documents, d’un processus ou workflow basé sur RDF. C’est justement Stanford qui pilote ce sous-projet.
4 types de workflow de catalogage ont été identifiés :
– récupération et enrichissement de données provenant d’un éditeur
– création manuelle de données à l’unité
– dérivation depuis un réservoir type WorldCat
– récupération de données en masse.

Dans un premier temps, c’est le premier workflow qui a été exploré, grâce à une collaboration avec l’éditeur italien Casalini Libri. Stanford bénéficie d’un avantage par rapport aux bibliothèques qui disposent d’un catalogue intégré dont l’interface de consultation pour les usagers repose sur la même base que la production : leur système d’accès est distinct du système de production, il est basé sur le moteur de recherche SolR et le système Blacklight. Le projet « tracer bullet » consiste donc à récupérer les données de l’éditeur, les compléter notamment des liens aux autorités, les transformer de MARC à Bibframe et enfin les verser dans SolR pour l’accès. Il a ainsi été possible de démontrer qu’on pouvait « brancher » sur le système d’accès un nouveau système de production basé sur Bibframe, sans perte de qualité dans l’expérience utilisateur.

La dernière session de travail de ces deux jours était consacrée aux questions de gouvernance, d’engagement des communautés, de formation etc. J’ai participé aux discussions sur la formation, ce qui m’a permis de mesurer l’importance que semble avoir pris le web de données aux yeux des bibliothécaires américains : loin du postulat que je faisais en 2014 en disant qu’il ne me semblait pas utile que tous les bibliothécaires soient formés au RDF, aux ontologies et autres arcanes du web semantique, nos collègues d’outre Atlantique semblent considérer que ce sont là les bases de la profession que tout le monde devrait a minima connaître.

À l’heure où je suis pour ma part (avec mon complice des Petites Cases) plutôt dans une démarche consistant à replacer le web sémantique dans un horizon plus large des données de bibliothèques, cette place étant plus du côté de l’interopérabilité et du partage que de celui de la production, ce décalage m’a pour le moins étonnée. Est-il dû aux années d’expérience que nous avons acquise, en France, sur la gestion de données RDF en production ?

Il ne faut pas oublier que les bibliothèques américaines sont confrontées à une situation bien différente de la nôtre. Leur format, MARC21, ne contient pas de liens entre notices bibliographiques et notices d’autorité : le seul point de contact se fait à travers les « noms », formes figées retenues pour dénommer ces entités de façon normalisée. Cette absence de lien constitue un handicap majeur pour la transition vers des modèles de type FRBR et vers le web de données, d’où une urgence plus grande à changer. Et tant qu’à changer, autant passer directement au format « du futur » plutôt que de faire subir des évolutions majeures à un MARC vieux de cinquante ans.

Par ailleurs, la déconnexion plus importante entre les notices bibliographiques et les données d’autorité qui en résulte conduit à une vision du catalogue comme un réservoir de notices figées appartenant au passé. Phil Schreur, de Stanford, compare ainsi les réservoirs de notice MARC à une dette que nous devrons payer un jour : il nous propose de ne pas aggraver cette dette en créant de nouvelles notices en MARC, mais de commencer dès que possible à produire dans le format de demain, la question du paiement de la dette (ou de la migration de l’existant) étant temporairement remise à plus tard.

La situation est sans aucun doute bien différente pour des bibliothèques françaises qui disposent déjà de données liées, même si elles sont encodées en Intermarc ou en Unimarc plutôt qu’en RDF. Nos catalogues lient ainsi de façon très organique données bibliographique et d’autorité, production et accès, création de notices et gestion de données vivantes. Cet état de fait nous donne une certaine avance (qui sera sans doute notre retard de demain…) et nous permet d’envisager une transition bibliographique plus progressive et plus étalée dans le temps : comme le disait récemment une collègue, « Pas de grand soir, mais beaucoup de petits matins ».

Vers de nouveaux catalogues

 

image

Après un an de travail, le livre Vers de nouveaux catalogues que j’ai dirigé au Cercle de la librairie (collection bibliothèques) est à présent disponible. Je profite de ce billet pour remercier tous les contributeurs, pour la qualité de leurs articles et pour leur réactivité. Grâce à eux, le résultat obtenu est riche, dense et passionnant… Lisez-le !

Pour vous allécher un peu, je vous propose ci-dessous mon introduction à l’ouvrage, qui expose les différents axes qui y sont traités, suivie de sa table des matières.

Introduction : vers de nouveaux catalogues ?

Vers de nouveaux catalogues : voici bien un titre qu’il aurait fallu, à l’heure où nous entreprenons l’écriture de cet ouvrage, doter d’un point d’interrogation. En effet, peut-on parler de « nouveaux » catalogues aujourd’hui, alors que depuis le dernier quart du siècle précédent, les catalogues de bibliothèques n’ont cessé de se réinventer ? Des premières heures de l’informatisation aux OPAC dits de « nouvelle génération », des systèmes intégrés de gestion de bibliothèque (SIGB) aux portails de découverte, le catalogue a endossé au fil du temps plusieurs fonctions. Outil de gestion des collections pour les professionnels, système informatisé permettant d’automatiser les processus métier tels que le catalogage et la circulation des documents, le catalogue est aussi, avant tout, l’interface proposée aux lecteurs pour chercher et trouver les documents et ressources de la bibliothèque.
Évoluant dans différentes directions pour répondre aux besoins et attentes liés à ces rôles multiples, le catalogue ou plutôt, devrait-on dire, les catalogues, présentent aujourd’hui des visages pluriels qu’il serait bien ambitieux de vouloir figer pour dresser le bilan de leur état actuel. Aussi le présent ouvrage ne prétend-il pas proposer une somme de référence sur le sujet, mais plutôt dresser un panorama de ces évolutions dans un contexte en mutation, qui continuera sans doute d’évoluer dans les années à venir.

En effet, l’évolution des catalogues s’inscrit dans un contexte qui est marqué par des tendances longues, liées à des cycles de transformation de leur environnement qui ne sont pas encore achevés.
La première de ces tendances est bien sûr l’irruption du web, qui a transformé les usages aussi bien des lecteurs que des professionnels de l’information et a positionné les catalogues en concurrence avec des outils à la force de frappe technologique incomparable : les moteurs de recherche. Rapidité de réponse, classement des résultats par pertinence, point d’entrée unique pour toutes les recherches, ergonomie simple et intuitive sont devenus des exigences naturelles à la hauteur desquelles le catalogue doit se hisser s’il souhaite continuer à exister en tant que tel. Deux types d’applications, les « OPAC nouvelle génération », apparus vers la fin des années 2000 et les « portails de découverte » au début des années 2010, se sont donné pour objectif de répondre à cette problématique. Un travail approfondi sur l’ergonomie de l’interface de recherche et la qualité du moteur a permis d’améliorer globalement l’expérience de l’utilisateur de ces outils, les rapprochant d’univers devenus familiers à tout internaute.
Les portails de découverte ont également l’ambition de répondre à une autre des tendances de long terme qui affecte les catalogues : la transition d’une partie significative des ressources intéressant les bibliothèques vers le numérique. Entamée dès les années 1990 avec les publications scientifiques, cette évolution n’épargne plus aujourd’hui les bibliothèques publiques, qui construisent pour leurs usagers des offres d’accès à des livres numériques en prêt ou en streaming mais aussi à des plateformes de vidéo à la demande ou de musique numérique. Or ces ressources numériques constituent, dans le domaine du signalement, une véritable révolution. Elles se présentent sous forme de flux continu et non plus avec une périodicité fixe, se décrivent à un niveau de granularité beaucoup plus fin (article, chapitre, plage d’un album de musique…), évoluent même constamment dans leur contenu et dans leur nature si on pense aux sites web. Au début des années 2000, les « portails de recherche fédérée » s’appuyaient sur des technologies d’interopérabilité propres au monde documentaire comme Z39.50, SRU/SRW ou encore OAI-PMH pour interroger simultanément plusieurs bases. Les « portails de découverte » qui leur ont succédé empruntent aux moteurs de recherche des méthodes plus simples et plus fluides. De nouveaux catalogues « dans les nuages » mutualisent les moyens nécessaires pour faire face à ces problématiques et s’appuient sur des bases de connaissances qui proposent des métadonnées préenregistrées pour une partie des ressources numériques.
Face à de tels changements, le monde des bibliothèques s’est également posé la question de l’évolution de son modèle de données, remettant en cause les formats MARC dont les principes remontaient à une informatique bien antérieure au web et cherchant à s’éloigner du carcan de la notice, héritée des catalogues sur fiches. Cette évolution commence en 1998 avec la création au sein de l’IFLA du modèle FRBR, qui propose de s’appuyer sur les besoins des usagers pour déterminer le contenu de la notice bibliographique et définit la notion d’œuvre, entité intellectuelle qui s’affranchit de la matérialité du document. Ce nouveau modèle a également pour effet d’attribuer une importance nouvelle aux données d’autorité, plaçant désormais au cœur de la description bibliographique les entités que sont les auteurs, les œuvres ou les sujets. Il faut cependant attendre 2005 pour voir émerger les prémices d’une évolution des pratiques de catalogage, avec les premiers travaux sur le nouveau code RDA (Ressources : description et accès) destiné à succéder aux règles de catalogage anglo-américaines (AACR2) puis le projet Bibframe de la Bibliothèque du Congrès. L’ensemble de ces évolutions, connu aujourd’hui sous le nom de « transition bibliographique », implique une transformation en profondeur des normes et des pratiques de catalogage, mais aussi des systèmes capables de produire et d’exploiter ces nouvelles données : plus qu’un grand soir du catalogage qui verrait la fin des formats MARC, c’est le début d’une période de mutation qui s’effectuera progressivement sur plusieurs années.

Parmi les bénéfices attendus de la transition bibliographique, celle-ci devrait permettre aux catalogues de s’acclimater plus aisément à la quatrième des tendances longues qui les affecte : l’émergence d’un nouvel environnement technologique de la « data ». Ce nouvel environnement se caractérise par une ouverture juridique (open data) visant à favoriser la réutilisation des données, par une évolution du web intégrant la spécificité des données structurées et liées (linked data ou web de données), par l’émergence de technologies permettant de manipuler en temps réel des masses très importantes de données (big data) et par de nouvelles interfaces alliant élégance graphique et force narrative (data visualisation). Extérieur à l’univers des bibliothèques, ce mouvement présente l’originalité de toucher des problématiques de société qui lui donnent une envergure médiatique très large : transparence de l’information publique, risques liés aux traitements de masse des données personnelles, orchestration de fuites liées à des données sensibles comme les « Panama papers » et data journalisme font la une de l’actualité, amenant la « data » à un niveau de conscience collective face auquel les bibliothèques font figure de nain cherchant à se jucher sur les épaules de géants.
Dans ce contexte, ce ne sont plus tant les catalogues qui comptent que les données qu’ils contiennent : dans un premier temps, les bibliothèques se préoccupent de diffuser leurs données dans ce nouvel environnement, adoptant les standards juridiques (licences ouvertes) et techniques (web de données) qu’il suppose dans l’espoir de permettre à leurs données d’interagir avec celles d’autres communautés et de gagner en visibilité sur web. Ainsi, le catalogue ne cherche plus à imiter l’interface des moteurs de recherche généralistes, mais à pousser ses données vers eux de manière à se rendre visible là où les utilisateurs se trouvent. De manière plus prospective se pose la question de l’utilisation de briques technologiques nouvelles permettant aux bibliothèques de bénéficier des innovations qu’apporte le nouvel environnement de la data : traitements automatisés, machine learning, algorithmes de recommandation, etc. Les catalogues se réinventent en entrepôts ou « hubs » de métadonnées, capables de produire, transformer et traiter en masse des données d’origines variées en vue d’une multiplicité d’usages.

Parler des catalogues aujourd’hui, c’est prendre acte de la diversité des mutations qui les affectent et se propagent par étapes à des rythmes différents. Les portails de découverte n’ont pas fait disparaître le besoin de disposer d’un SIGB pour assurer les fonctions traditionnelles de la bibliothèque ; le web de données n’a pas remplacé les modèles de catalogage partagé basés sur la récupération de notices ; le catalogage en RDA ou en EAD pour les archives et manuscrits devra coexister pendant encore plusieurs années avec les traditionnels formats MARC ; les hubs de métadonnées capables de gérer flux et traitements devront continuer à s’articuler avec des bases de données plus traditionnelles.
Le paysage actuel des catalogues, tel qu’il se dresse à la lecture des contributions au présent ouvrage, voit ces différents systèmes et pratiques évoluer de manières diverses, prenant inspiration dans un environnement technologique extrêmement stimulant, qui favorise les coopérations et l’inventivité et ouvre de nouveaux possibles. Loin de céder à une vision pessimiste des catalogues traditionnels, cœur de métier des bibliothèques menacé de disparition, il laisse espérer l’émergence de « nouveaux catalogues », qui n’en porteront peut-être plus le nom, mais continueront à constituer la plateforme technologique sur laquelle se construit la mission première des bibliothèques : l’accès de tous à la connaissance et aux savoirs.

Table des matières

Vers de nouveaux catalogues ? Propos introductif par Emmanuelle Bermès (Bibliothèque nationale de France)

1) Le catalogue au défi du Web

L’open data, un levier pour l’évolution des catalogues, par Romain Wenz (Service interministériel des archives de France)

Vers un catalogue orienté entités : la FRBRisation des catalogues, par Emmanuelle Bermès (Bibliothèque nationale de France)

Visualiser les données du catalogue, par Raphaëlle Lapôtre (Bibliothèque nationale de France)

2) Réinventer le catalogue aujourd’hui

La transition bibliographique, par Françoise Leresche (Bibliothèque nationale de France)

L’autre catalogue ? Décrire des archives et des manuscrits, par Florent Palluault (Médiathèque François-Mitterrand de Poitiers) et Patrick Latour (Bibliothèque Mazarine)

Un projet Open source, collaboratif et orienté utilisateur en BU : BRISE ES, par Caroline Bruley (Service Commun de Documentation de l’université Jean Monnet, Saint-Etienne)

3) Le catalogue dans son écosystème : une affaire de flux

La constitution et la réutilisation des données entre bibliothèques, par Guillaume Adreani (Le Défenseur des droits)

Flux de données entre éditeurs et bibliothèques: le format ONIX, par Jean-Charles Pajou (Bibliothèque nationale de France)

Atomes crochus : les métadonnées des éditeurs et l’ABES, par Yann Nicolas (Agence Bibliographique de l’Enseignement Supérieur)

4) Outils et systèmes

Portails et catalogues en bibliothèque publique, l’enjeu du numérique, par Guillaume Hatt (Bibliothèque municipale de Grenoble)

Le catalogue dans les nuages : vers un SGB mutualisé, par Sandrine Berthier (Université de Bordeaux)

La donnée : nouvelle perspective pour les bibliothèques, par Gautier Poupeau (Institut national de l’audiovisuel)