Le futur de la recherche documentaire : RAG time !

Aujourd’hui, je vous parle d’une application de l’intelligence artificielle et plus spécifiquement, des modèles de langues et de l’IA générative, qui est en train de prendre pas mal d’essor en ce moment : le RAG (Retrieval Augmented Generation). Vous n’en avez jamais entendu parler ? Restez branchés, car le RAG pourrait bien rentrer rapidement dans la boîte à outil courante du professionnel de l’information, juste à côté des catalogues, des ressources électroniques et des moteurs de recherche.

Un peu d’historique et de contexte (on ne se refait pas)

Voilà plusieurs années maintenant qu’on me demande régulièrement d’intervenir pour parler de ce que l’IA change ou va changer dans les bibliothèques. Après avoir étudié tous les use-case possibles et imaginables, j’ai développé un savant exercice d’équilibriste à base de « on va pouvoir continuer à faire ce qu’on fait, mais plus efficacement » ou encore « c’est surtout la masse de ce qu’on peut traiter qui change ». Depuis plusieurs années, j’avais vu débarquer les grands modèles de langue (LLM), en particulier BERT et ses petits amis (CamemBERT, FlauBERT etc.) mais globalement, leur utilisation se passait dans la soute, dans des profondeurs techniques difficiles à expliquer à des publics non-avertis. Cela faisait partie de ces outils « invisibles » qui améliorent les données et les services qu’elles rendent, mais sans faire de bruit.

En novembre 2022, quand ChatGPT a débarqué et a démontré sa capacité à masteriser le test de Turing, j’ai été assez rapidement convaincue qu’une fois le phénomène de mode passé, cet outil (et ses petits frères LLM) aurait surtout un impact quand il s’intègrerait discrètement dans nos applications du quotidien : nos gestionnaires de mail (pour répondre plus vite et envoyer encore plus de mails :-/), nos traitements de texte (pour trouver le bon mot à notre place) et… nos moteurs de recherche (dont il reformulerait à la fois les réponses et les questions, en langage naturel).

Le graal du « langage naturel » dans la recherche documentaire est en effet un idéal après lequel on court depuis bien des années. L’enjeu est de se débarrasser des mots-clefs, méthodes de requêtage et autres trucs de professionnels de l’information, pour pouvoir simplement demander les choses à son moteur de recherche préféré comme on le ferait à un humain, en lui posant des questions. La recherche plein texte à la Google ne répond qu’imparfaitement à ce cas d’usage : on peut en effet formuler des questions, il répondra bien quelque chose, mais le lien entre les deux n’est pas garanti.

Comme nous autres bibliothécaires, Google a commencé par tenter de s’appuyer sur les métadonnées pour pouvoir répondre de manière pertinente à au moins certaines questions, avec le « knowledge graph ». Ce qui donne par exemple ceci :

Encore plus récemment, on a vu apparaître autre chose dans la liste de résultats de Google. Dans la copie d’écran ci-dessous, prise à partir de la même question et toujours sur la 1e page de résultats, vous avez à droite le knowledge graph et à gauche, une liste de questions avec leurs réponses (que l’on peut dérouler en cliquant sur la flèche) :

Il suffit de regarder attentivement les questions et les réponses pour deviner que Google utilise ici les ingrédients de sa bonne vieille recette qui marche : analyser les questions que posent souvent les internautes, les réponses qui leur plaisent le plus, et chercher les chaînes de caractère textuelles qui correspondent. Rien de neuf : on sait depuis longtemps que pour améliorer son référencement, il faut formuler le titre de ses pages/billets/vidéos sous forme de question en essayant d’imaginer ce que les internautes se demandent (vraiment, j’avais capté ça en 2004, ce qui a fait de ce billet mon best-seller de tous les temps).

Ce qui change vraiment, c’est la place importante que Google réserve désormais à ce bloc question-réponse sur sa page de résultats, quelle que soit la requête (même si ce n’est pas une question). On peut donc s’aventurer à le prédire : dès qu’on aura réussi à empêcher les LLM de trop halluciner, les modalités de la recherche documentaire vont profondément changer, et laisseront beaucoup plus de place aux questions-réponses et aux échanges en langage naturel.

Je ne m’appesantirai pas ici sur les tests en cours dans ce domaine du côté des grands moteurs de recherche du web, qu’il s’agisse de Google ex-Bard désormais Gemini ou du Copilot de Bing basé sur ChatGPT. Ce qui m’intéresse aujourd’hui, c’est de vous parler de l’un des impacts de cette évolution sur la recherche documentaire en bibliothèque (ou archives), à travers le RAG.

Qu’est-ce que le RAG et à quoi peut-il servir ?

(Ce titre de niveau H2 est cadeau pour le référencement.)

RAG signifie donc Retrieval Augmented Generation ; en français, on parle de « génération augmentée de récupération ».

Un RAG permet à une intelligence artificielle générative conversationnelle (comme ChatGPT) d’interagir avec un corpus délimité. Celui-ci peut correspondre à un ensemble de documents, un fonds d’archives ou même à un seul document. On peut dès lors poser des questions visant à résumer tout ou partie du corpus ou du document, à vérifier la présence de tel ou tel concept et savoir comment il est traité, ou encore à répondre à des questions précises en se basant sur l’information présente dans le corpus. Bonus non négligeable, grâce au RAG, l’outil est en principe capable de citer ses sources c’est à dire de lister précisément les documents du corpus sur lesquels il s’est basé pour répondre, voire de fournir des extraits et des citations.

Imaginez par exemple que vous tombez sur un article de 50 pages potentiellement intéressant, mais vous n’avez pas le temps de le lire. Vous pourriez alors demander à un agent conversationnel, grâce à votre RAG, de vous le résumer paragraphe par paragraphe, d’en extraire les thématiques principales, de vérifier s’il contient l’idée que vous cherchez ou la réponse à votre question, d’aller droit aux résultats de la recherche qui y est présentée… C’est le cas d’usage qu’a imaginé JSTOR pour son outil AI research tool (beta) :

Les RAG semblent être apparus en 2020 dans l’environnement de Meta. Pour ma part, je les ai découverts (notamment à travers l’exemple de JSTOR) à la conférence AI4LAM de Vancouver en novembre dernier ; néanmoins je ne crois pas que le terme de RAG a été utilisé (ou alors il m’a échappé, on en sera quittes pour vérifier dans les captations vidéo qui devraient arriver bientôt). Sur le coup, j’ai trouvé l’idée intéressante mais un peu anecdotique, peut-être parce que la personne qui faisait l’une des démos avait utilisé ses propres archives et posait des questions sur son chien (les exemples, c’est important). Depuis, j’ai vu passer d’autres applications qui ont attiré mon attention et que je détaillerai un peu plus loin (ça c’est pour vous obliger à lire jusqu’au bout mon billet interminable, quel machiavélisme !)

Comment ça marche ?

Je ne vais pas rentrer dans des détails très techniques, ce qui m’intéresse est comme d’habitude de saisir suffisamment les principes généraux pour comprendre les atouts et les limites potentielles de l’outil.

Les grands modèles de langue comme Chat-GPT présentent la particularité de mélanger une fonction linguistique (construire des phrases correctes dans plusieurs langues) et des connaissances, qui s’appuient sur les données d’apprentissage qui leur sont fournies à savoir, globalement, de grands corpus de texte issus du web ou de bibliothèques numériques. Or, le mélange de ces deux fonctions produit le phénomène qu’on a appelé hallucination, c’est-à-dire que lorsque le modèle n’a pas la connaissance nécessaire, il produit quand même du langage et donc raconte n’importe quoi. Essayez par exemple de demander à Chat-GPT de vous générer la bibliographie d’une personne, il vous fournira des références crédibles mais totalement fantaisistes… Par exemple je n’ai rien écrit de tout cela (encore que l’idée d’une co-publication avec Nathalie Clot soit bien trouvée) :

On ne peut pas vraiment lui en vouloir : ChatGPT est un modèle de langue, son rôle est de générer du langage et pas de rechercher des informations.

Le principe du RAG est donc d’augmenter (A) la fonction générative (G) avec une fonction de recherche (R) dans un corpus externe. Pour effectuer cette spécialisation, il existe plusieurs méthodes possibles : entre l’article initial de P. Lewis et al. en 2020 et celui-ci qui, en 2023-24, analyse 100 publications à propos des RAG, le champ de la recherche s’est déjà complexifié de manière importante, notamment suite à l’irruption de ChatGPT en cours de route. Le schéma ci-dessous, emprunté au 2e article, représente la généalogie de l’évolution des RAG pendant cette période :

Technology tree of RAG research. Source : https://arxiv.org/abs/2312.10997

Je recommande également la lecture de cet article pour les personnes qui souhaiteraient des explications techniques claires et illustrées par des schémas sur le fonctionnement de ces différents types de RAG. Je vais essayer de résumer, mais comme le laisse supposer ce joli graphique, le RAG est un domaine de recherche complexe en plein expansion, qu’il serait difficile de saisir en seulement quelques phrases : je vais donc forcément simplifier de façon un peu caricacturale, pardonnez-moi.

Il y a en gros trois méthodes pour améliorer les résultats d’un LLM en maîtrisant davantage la source des connaissances qu’il utilise pour répondre :

  • le prompt-engineering, qui consiste à agir au niveau du prompt, en y injectant le contenu des références à utiliser pour fournir une réponse correcte et à jour,
  • le fine-tuning, qui consiste à réentraîner le modèle sur un corpus choisi pour lui apprendre à répondre de manière plus spécifique en fonction d’un domaine ou d’un corpus,
  • le RAG proprement dit, qui repose sur la séparation de la fonction langagière du LLM et de la base de connaissances qui la sous-tend.

En réalité, selon les types de RAG, on va combiner ces différentes méthodes pour optimiser les résultats obtenus. Par exemple, en injectant des sources de référence dans les prompts, on va permettre au LLM de tracer l’origine des connaissances qu’il utilise pour formuler sa réponse, voire lui donner des éléments pour fournir des réponses plus à jour (la base de connaissance de la version publique de ChatGPT, par exemple, s’arrête en 2021). Par contre, il existe des risques de brouillage entre les connaissances d’origine du modèle et le corpus choisi. Le fine-tuning nécessite de réentraîner le modèle, ce qui peut être assez lourd en terme de calcul et nécessite de disposer de grands corpus de vérité terrain adaptés. En revanche, le fait de séparer le langage des connaissances a l’avantage de permettre de travailler avec des modèles de langue plus légers – c’est ce que nous a expliqué Pierre-Carl Langlais à la dernière réunion du chapitre francophone d’AI4LAM que vous avez manquée malheureusement, mais que vous devriez pouvoir revoir en vidéo bientôt.

Des exemples ?

Si vous voulez en savoir plus sur le principe des RAG, lire des explications un peu plus techniques (mais quand même accessibles) et découvrir un outil que vous pouvez vous-même tester, allez voir du côté de WARC-GPT, un outil open-source développé par le Lab de l’Université de Harvard (présentationgithub). Son objectif est de permettre d’explorer des paquets d’archives web au format WARC. Vous allez me dire que si vous ne travaillez pas sur les archives du web, ce n’est pas très intéressant… et pourtant ! Si vous utilisez des ressources accessibles en ligne comme à peu près n’importe qui, il est globalement très facile de les empaqueter en WARC (par exemple avec Conifer ou Archiveweb.page).

Sinon, vous pouvez aussi tester Nicolay, un outil qui expérimente le RAG sur 15 discours d’Abraham Lincoln, représentant environ 300 pages de texte (présentationdémogithub).

Au niveau français, j’ai aperçu des expérimentations à droite ou à gauche, mais je n’ai rien de concluant à vous montrer pour l’instant. Pourtant, si on en croit les très nombreuses références commerciales que l’on peut trouver sur Internet, comme par exemple celle-ci (qui est par ailleurs plutôt bien faite pour qui recherche des explications en français), le RAG est aujourd’hui une technologie bien maîtrisée par l’industrie. Donc si vous avez des exemples sous la main, n’hésitez pas à me les signaler, je les ajouterai à ce billet.

Pour revenir au domaine de la recherche documentaire et des bibliothèques, il me semble que le RAG offre des opportunités d’exploration de grands corpus que je serais surprise de ne pas voir fleurir dans les mois ou années qui viennent. Par ailleurs, si ce genre de méthode doit révolutionner à terme la recherche documentaire et voir nos recherches par mots-clef disparaître au profit de prompts, comme la recherche par équation a disparu au profit de de la recherche plein texte… On a intérêt à comprendre comment elles fonctionnent et à apprendre à les maîtriser. Car le prompting, c’est comme la recherche documentaire : ça pourrait paraître simple à première vue, mais c’est une compétence de la litératie numérique qui ne s’invente pas.

Je vous propose de conclure ce billet en écoutant The entertainer’s Rag (Tony Parenti’s Ragpickers Trio, 1958) sur Gallica. RAG time !

Ce billet a été rédigé à 100% à base d’intelligence humaine.

Toujours plus de futurs fantastiques ! (édition 2023)

Vue de la salle principale du bâtiment "The Permanent", avec un plafond en verre coloré

Nous voici à Vancouver, dans une ancienne banque construite en 1907, un bâtiment appelé « The Permanent » qui est désormais le siège canadien d’Internet Archive. C’est là que se sont réunis, en ce mois de novembre 2023, les membres de la communauté AI4LAM, consacrée à l’intelligence artificielle dans les institutions culturelles. Souvenez-vous, j’avais assisté à la conférence Fantastic Futures, 2e édition, à Stanford en 2019, et organisé celle de 2021 à Paris.

Cette année, le programme inclut une journée de workshops et deux jours de conférence plénières (dont les enregistrements vidéo devraient être bientôt diffusés), auxquels s’ajoute une réunion du AI4LAM council, l’un des organes de pilotage de la communauté. Je vous livre ici mon compte-rendu partial, partiel et personnel de ces trois jours de travail fécond : pour la première fois, j’avais la sensation de participer en observatrice, étant sortie de la communauté des professionnels, mais préoccupée par une question en particulier : quelle formation faut-il proposer aux personnes qui vont mener des projets IA dans les bibliothèques, archives et musées dans les années à venir ?

Un enjeu : embarquer !

Si les conférences de 2018 et 2019 étaient celles de la découverte, principalement tournées vers la sensibilisation aux enjeux d’une technologie émergente encore peu utilisée dans le monde culturel, celle de 2021 avait montré la maturité de plusieurs projets massifs dans des institutions pilotes. En 2023, le monde a changé : l’irruption de Chat-GPT est vue comme un déclic qui a fait évoluer la perception de l’IA dans la société et de fait, dans les institutions patrimoniales. Il ne fait désormais plus de doute que l’IA est dans le paysage et va changer la donne pour beaucoup de métiers et d’activités : au-delà des « early adopters« , chacun réfléchit à son « use case« , son projet ; la conférence fait la part belle à l’expérimentation, celle-ci requérant de moins en moins de moyens et de compétences techniques, tant le cloud offre de services clef-en-main.

Pour moi, la question majeure qui se pose cette année c’est comment faire « embarquer » dans le vaisseau AI4LAM de nouveaux collègues, qui ont certes de nouveaux projets, mais souhaitent surtout apprendre, comprendre, s’approprier ces nouveaux outils qui ont à présent fait leurs preuves et découvrir comment les intégrer dans leur quotidien.

Dans ce contexte, beaucoup des personnes présentes à Vancouver font figure de spécialistes, de « passeurs », d’accompagnantes : sans être toujours des expertes en ingénierie, elles peuvent jouer le rôle d’aider à embarquer leurs collègues, que ce soit à l’échelle d’une institution, de la communauté dans son ensemble ou d’un groupe spécifique (comme le chapitre francophone d’AI4LAM récemment créé). La question, c’est comment faire !?

Phase 1 : comprendre

Je m’inspire ici du AI planning framework de la Library of Congress, publié juste la veille de la conférence, pour nommer cette première étape. L’outil est encore jeune et demande à être testé, même si le LC Labs a passé cette année à l’éprouver en interne : nos collègues Laurie Allen et Abbey Potter nous invitent maintenant à nous en saisir pour nous aider notamment dans les phases amont de la planification d’un projet IA.

Quel projet IA êtes-vous ?

L’idée est la suivante : quelqu’un débarque dans votre bureau et vous annonce qu’il ou elle souhaite faire un projet IA sur {insérez ici le sujet de votre choix}. On va alors planifier le projet en 3 phases :

  • une phase d’analyse (understand) visant notamment à évaluer son intérêt, sa faisabilité et à gérer les attentes notamment en matière de qualité du service rendu,
  • une phase d’expérimentations itératives, visant d’abord à voir si la technologie envisagée fonctionne, puis quels résultats on peut espérer en attendre, et enfin comment ceux-ci peuvent s’intégrer dans le fonctionnement du service,
  • et enfin, une phase d’implémentation qui implique la mise en place de politiques et standards qui vont garantir un usage responsable de l’IA.

L’outil créé par le LC Labs prend la forme d’une série de questionnaires (« worksheets« ) qui accompagnent chaque étape et jouent autant un rôle de sensibilisation technique et stratégique que de planification. On y trouvera ainsi une analyse des risques, un diagnostic sur l’état et la disponibilité des données, un plan de traitement données et un modèle de contractualisation (les outils de la phase « implement » sont encore en construction).

Cette phase d’analyse préalable est aussi celle où il va falloir se familiariser avec des notions clefs (qu’est-ce qu’une vérité terrain ? comment entraîner un modèle ? ça veut dire quoi fine-tuner ? etc…) et où la formation (qu’elle porte ce nom ou pas, on a souvent parlé plutôt de montée en compétences collective) va jouer un rôle. Cette question était au cœur de plusieurs des workshops du mercredi, l’un des fils rouges étant d’intégrer l’IA dans la littératie numérique classique des bibliothécaires, à travers des initiatives comme Library Carpentry ou dans des cadres de référence comme celui de l’ACRL (association des bibliothèques de recherche américaines).

Le voir pour le croire

Comprendre, cela passe aussi par le fait de pouvoir soi-même tester et manipuler les outils d’intelligence artificielle. Si Chat-GPT a été une telle révolution (alors que les « LLM », large language models, de type transformers étaient dans le paysage depuis plusieurs années), c’est parce que tout à coup, on disposait d’une interface permettant à n’importe qui de les utiliser. Appliquant ce concept aux GLAMs et au traitement des images (computer vision), le projet AI explorer du Harvard Art Museum propose de se poser la question suivante : chacun de nous voit des choses différentes quand il regarde une œuvre d’art ; que voient les ordinateurs ? Les œuvres du musée numérisées ont été étiquetées avec une palette d’outils IA disponibles sur le marché : on peut dès lors comparer les approches de ces différents outils et observer leur pertinence ou au contraire, leurs hallucinations.

Dans le même esprit, on a cité MonadGPT, un chatbot réalisé par Pierre-Carl Langlais qui a été entraîné uniquement sur des textes du 17e siècle et répond donc aux questions avec une vision du monde arrêtée à cette époque. On mesure ainsi l’impact du choix des corpus d’entraînement sur le résultat obtenu, ce qui permet aussi de relativiser la pertinence d’outils comme Chat-GPT.

Enfin la Teachable Machine de Google (utilisée par Claudia Engel et James Capobianco dans leur workshop) permet d’entraîner un véritable modèle Tensorflow sur des images, des sons ou des mouvements sans avoir besoin de connaître la moindre ligne de code. Voilà qui permet d’appréhender par la pratique ce que veut dire entraîner et tester un modèle : il n’y a rien de tel pour se confronter aux enjeux de sélection des données que cela peut poser. J’ai aussi entendu dire que la Teachable Machine était utilisée dans certains projets où on a besoin de faire entraîner les modèles par des chercheurs qui n’ont pas de compétences techniques, pour ensuite récupérer et déployer le fichier Tensorflow qu’elle génère. Mais là, on entre dans les phases suivantes : expérimenter et implémenter (merci pour la transition !)

Phase 2 : expérimenter

L’expérimentation, c’était vraiment le maître mot de cette conférence : une multitude d’outils, d’exemples, de cas d’usages nous ont été présentés et j’aurais même du mal à tous les lister ici. La démarche était souvent une quête d’appropriation : cet outil existe, il a l’air de fonctionner, ce n’est pas si compliqué que ça de l’utiliser, et si je l’essayais sur mes collections ? Mais ce qui m’a le plus frappée, c’est l’inventivité dont font preuve les collègues pour tirer parti notamment des IA génératives dans les contextes les plus divers.

Prompt engineering et métadonnées

Bien sûr, en tant que bibliothécaires, la première question (ou presque) qu’on se pose, c’est de savoir si on ne pourrait pas générer des métadonnées et des descriptions structurées à partir des documents eux-mêmes. Au-delà des approches qu’on connaissait déjà (comme l’utilisation d’Annif pour générer des indexations sujet), certains se sont lancés dans des opérations complexes de prompt engineering : chaînage, utilisation d’exemples et de fonctions, intégration de Json et d’instructions de formatage aux prompts pour générer des données structurées… Voir par exemple les expérimentations réalisées par le groupe Metadata d’AI4LAM ou encore les travaux de William Weaver sur la transcription des inscriptions figurant sur les herbiers : dans ce dernier cas, il combine segmentation des zones de texte, production d’un OCR et prompt engineering pour passer de la numérisation en mode image à la génération d’un tableur où ces informations sont rangées de manière organisée… merci le LLM !

Chatbots et archives

Une autre « famille » d’applications nous emmène vers une approche complètement nouvelle des archives : et si on pouvait poser des questions aux documents au lieu de les lire ? Plusieurs projets comme Rednal.org se sont penchés sur l’idée d’un chatbot qui se limiterait à un document, un fonds ou un corpus et auquel on pourrait demander par exemple de résumer les idées importantes ou de chercher si telle ou telle information s’y trouve. JSTOR a même déployé ce service en version Beta, en y ajoutant une aide à la recherche qui permet de rebondir depuis un document vers d’autres ressources disponibles sur la plateforme. Ce ne sont pas des idées 100% nouvelles : un assistant pour nous aider à nous balader dans la bibliothèque numérique, on l’avait déjà rêvé, mais grâce à Chat-GPT, ils l’ont fait et le résultat est assez bluffant.

Transcrire et annoter les ressources audiovisuelles

Le traitement des ressources audiovisuelles, et en particulier le speech-to-text avec le modèle open source Whisper, semble être enfin l’un des domaines essentiels d’utilisation de l’IA dans les GLAMs. Le projet conduit par Peter Sullivan pour Interpares sur les archives audio de l’Unesco a montré qu’une approche multilingue était possible (et que la diplomatique pouvait jouer son rôle dans l’amélioration de la génération de métadonnées ;-). Nous avons eu droit à une petite démo de la plateforme australienne ACMI (en Beta) et de l’impressionnant éditeur de workflow d’AMP (Audiovisual Metadata Platform), un générateur open source de métadonnées pour contenus audiovisuels (pas encore en production).

Que retenir de toutes ces expérimentations ? Principalement que cette étape d’expérimentation, la 2e dans le modèle de planification de la LoC, est en fait une phase itérative au cours de laquelle on passe par plusieurs questions :

  • est-ce que cet outil peut marcher sur mes collections ?
  • une fois qu’il fonctionne, quel niveau de qualité peut-on en attendre ?
  • une fois que j’ai atteint le niveau attendu, comment l’intégrer à mes services opérationnels ?

Et ainsi, nous voici en route vers la 3e phase : implémenter.

Phase 3 : implémenter

La question du passage de l’expérimentation « R&D » à la mise en production ou intégration aux services opérationnels était l’un des points abordés dans la table ronde que l’on m’a chargée d’animer avec plusieurs institutions (Stanford et Harvard Libraries, bibliothèque nationale de Norvège, Library of Congress et National Film and Sound Archives en Australie). Ces institutions, dont plusieurs se sont dotées de « Labs », reconnaissent que le pas est difficile à franchir, notamment pour des raisons organisationnelles. Face à l’IA, avant même d’entrer dans les enjeux techniques, se posent des questions de montée en compétences, d’alignement des valeurs et des attentes, de disponibilité des données, de mutualisation des moyens.

J’ai apprécié le fait qu’on nous ait proposé des retours d’expérience divers dans ce domaine : du bilan dressé par la British Library de l’imposant projet Living with machines (qui vient de se terminer) au rapprochement informel de trois institutions fédérales couvrant la palette des LAM (LoC, NARA et Smithsonian) en passant par le comité IA que la bibliothèque de l’Université du Mississippi a mis en place pour répondre aux sollicitations contradictoires des universitaires et étudiants… Il existe bien des modèles et des approches pour envisager l’IA dans les institutions culturelles, qui ne nécessitent pas toutes le même degré d’investissement dans le développement et les infrastructures.

Mais quand même, la question qui brûle toutes les lèvres, c’est de savoir si ces tous ces services innovants sont déployés à l’échelle, visibles, disponibles pour les usagers !

Le « vault », coffre-fort de The Permanent… Les secrets de la mise en production de l’IA sont-ils cachés ici ???
(Photo Neil Fitzgerald)

Alors oui, j’en ai déjà cité quelques exemples : on a des versions Beta à droite et à gauche que l’on peut voir fonctionner ; on a vu par exemple apparaître un nouveau service « Text-on-maps » sur le site de la David Rumsey Historical Map collection de Stanford qui est assez épatant.

Du côté déploiement à l’échelle, on va trouver les « gros » acteurs qui ont à la fois une force de frappe importante en matière d’investissement et l’agilité qui reste difficile à atteindre dans le service public. Internet Archive a ainsi déployé son portail « Internet Archive Scholar » qui utilise l’intelligence artificielle pour repérer des articles scientifiques dans l’archive web et extraire des métadonnées (savourez le logo vintage…) OCLC a testé un algorithme de dédoublonnage des notices dans Worldcat qui leur a permis de passer d’un taux d’élimination des doublons tournant autour de 85-90% à plus de 97%, sur des millions de notices. Ainsi, certaines applications de l’IA sont mises en service « dans l’ombre », à un endroit où l’internaute ne peut pas les voir mais bénéficie du service rendu : recadrer les pages issues de la numérisation ou améliorer la qualité de l’OCR chez Internet Archive, marquer les « unes » des journaux numérisés à la Bibliothèque nationale de Norvège…

La technologie et l’humain

Au final, quand on examine tous ces projets (y compris ceux de la phase expérimentale), c’est souvent la question de la qualité des données qui freine, voire empêche la mise en production. Quand on exige un taux d’erreur nul ou presque, l’automatisation est-elle la bonne solution ? Beaucoup répondent en proposant de voir l’IA comme un « copilote », qui ne va pas résoudre tous les problèmes mais seulement faciliter ou assister le travail des humains dans une collaboration fructueuse. Les humains sont donc toujours dans la boucle (Human-in-the-loop comme on dit en anglais).

Ce qui nous amène aux questions éthiques, loin d’être absentes de cette édition puisque les deux conférences introductives les ont abordées, sous des angles différents. Thomas Mboa, chercheur en résidence au CEIMIA, a développé le concept de technocolonialité, posant l’idée qu’à l’heure actuelle, l’enjeu de la colonisation n’est plus géographique : nous sommes tous colonisés par la technologie, et il nous revient de veiller à préserver notre intégrité culturelle, en luttant contre l’extractivisme numérique (exploitation des fournisseurs de données, par le digital labor et autres) et le data-colonialisme, et en luttant en faveur de l’ouverture, de la justice des données et de la mise en places d’écosystèmes de confiance entre les acteurs.

C’est encore la confiance qui était mise en avant par Michael Ridley de l’Université de Guelph au Canada, deuxième conférencier qui prônait l’explicabilité de l’intelligence artificielle (couverte par le sigle XAI), pas seulement pour les développeurs qui cherchent à ouvrir la boîte noire, mais pour toutes celles et ceux qui interagissent avec ces algorithmes. Ces différentes visions concouraient finalement à envisager l’IA comme un collaborateur de plus dans une équipe et à parler, plutôt que d’intelligence artificielle, « d’intelligence augmentée ».

En guise de conclusion, un plan d’action

Il y aurait sans doute encore beaucoup à dire, mais je vais clore ce billet déjà trop long en revenant sur ma question de départ : aujourd’hui, à quoi faut-il former les professionnels qui auront à mener des projets IA dans des institutions culturelles ? (Par exemple dans le cadre d’un master dont ce serait précisément la fonction…) Au-delà des bases théoriques de l’IA et des principaux cas d’usage, il me semble qu’il y a plusieurs idées qui méritent d’être creusées :

  • analyser, diagnostiquer, faire des études amont pour déterminer la faisabilité d’un projet : prendre en main l’outil de planning de la LoC, le tester, voire le traduire en français pourrait être très utile dans ce contexte ;
  • utiliser des API pour intégrer les différents modèles existants dans une chaîne de traitement de données ;
  • faire du prompt engineering avancé pour apprendre à exploiter de manière productive les LLM, en combinaison avec d’autres outils de traitement comme l’OCR/HTR par exemple ;
  • travailler sur la qualité des données en amont comme en aval du processus IA, maîtriser les métriques habituels (précision, rappel etc.) mais aussi savoir élaborer des démarches d’évaluation de la qualité spécifiques à des contextes ou des usages particuliers ;
  • enfin, promouvoir des modèles ouverts, explicables, soucieux du respect de l’humain et de l’environnement, bref des IA conçues et utilisées de manière responsable.

Du côté d’AI4LAM, la discussion du conseil a aussi débouché sur l’idée qu’il allait falloir mettre en place des dispositifs d’embarquement pour les nouveaux collègues. Un réservoir de diapos de référence, des présentations régulières d’introduction aux bases de l’IA pour les GLAM (en plusieurs langues et dans plusieurs fuseaux horaires), une « clinique de l’IA » où chacun pourrait venir avec ses questions, des sessions Zoom de rencontre autour de thématiques spécifiques… sont autant d’idées que nous avons brassées pour y parvenir. Il y aura des appels à la communauté pour participer à ces initiatives alors si vous voulez nous rejoindre, n’hésitez pas !

Pour s’abonner aux différents canaux d’échange d’AI4LAM, c’est par ici. Pour devenir membre du chapitre francophone, il vous suffit de rejoindre le forum de discussion du groupe.

Archiver le web pour les chercheurs : mode d’emploi

Depuis deux ans, grâce au projet ResPaDon, je travaille de manière un peu plus approfondie sur les usages des archives web pour la recherche, et ça tombe bien car mes nouvelles activités depuis octobre me conduisent en ce moment d’une part à me replonger dans ma thèse en vue de son édition, et d’autre part à enseigner sur le sujet.

Alors en attendant la journée d’étude professionnelle et le colloque « Le web, source et archive » qui vont conclure ce beau projet respectivement le 13 mars à la BnF et les 3-5 avril à Lilliad, voici en mode mise en bouche un petit mode d’emploi pour les chercheurs qui ont besoin d’archiver des contenus web.

Vous allez me dire, c’est quand même assez spécifique, il y a finalement assez peu de gens qui sont concernés. Mais en fait si. Cela peut arriver à tout le monde de tomber sur un lien mort, une erreur 404 (à commencer par moi-même quand je cherche des vieux trucs dans mon blog, vu que j’ai pété toutes mes URL).
Si on anticipe un tout petit peu ce problème, en tant que chercheur (au sens très large de « quelqu’un qui cherche », quel que soit le sujet, il arrive qu’on tombe sur des ressources en ligne dont on n’est pas sûr qu’elles seront encore là demain (par exemple le blog d’une personne irresponsable qui ne fait pas attention à la préservation de ses URL) voire dont on est sûr qu’elle n’y seront plus (par exemple une fiche de poste intéressante pour réfléchir aux compétences d’étudiants en master).
Dans ces cas-là, si on veut fonder une réflexion scientifique qui tient la route, pouvoir citer la ressource dans un article ou tout simplement en garder la trace, on a besoin de l’archiver.

Voici quelques méthodes qui peuvent être utilisées pour ce faire, de la plus simple à la plus complexe.

1. Zotero : vous utilisez déjà cet outil pour vos références bibliographiques, vous avez déjà installé une extension sur votre navigateur préféré pour sauvegarder en un clic une référence. Si vous le faites sur une page web lambda, le mode « snapshot » archive une copie de la page et vous pourrez la rejouer plus tard. [Edit] Cette méthode peut néanmoins finir par peser lourd sur votre disque dur ; heureusement il existe une extension Memento qui permet de récupérer dans Zotero un lien vers la Wayback Machine d’Internet Archive.

2. Le service Save Page Now d’Internet Archive : également doté de son extension, il vous permet non seulement de chercher une copie archivée d’une page si vous tombez sur une erreur 404, mais aussi d’archiver en 1 clic la page que vous consultez (et si besoin, tous ses liens sortants) dans la Wayback Machine. Cela évite d’encombrer votre disque dur, vous garantit de pouvoir la retrouver, peut être utile à d’autres gens et en plus, il y a plein d’autres fonctionnalités vraiment cool comme la cartographie de site…

3. Les outils de WebRecorder.io : derrière ce service, une communauté d’ingénieurs (dont Ilya Kremer) qui travaillait au départ sur l’idée de « browser-based archiving » c’est à dire d’archiver les sites en se basant sur la navigation d’un internaute. Plus besoin de cliquer sur les pages une à une, un outil comme archiveweb.page (toujours sous la forme d’une extension) vous permet d’enregistrer toute une session de navigation et de l’éditer après. Il y a aussi l’outillage nécessaire pour constituer une archive web avec Python pour les plus aventureux.

4. Hyphe : outil développé par le MediaLab de Sciences Po, il permet de constituer de véritables corpus web. Là, on entre quand même dans les outils plus spécifiques pour les chercheurs qui utilisent le web comme source de façon plus systématique.

5. Le BnF DataLab : si vraiment le web est votre sujet de recherche ou votre principale source, vous finirez sans doute par vous tourner vers des dispositifs plus institutionnels qui permettent d’entrer dans des partenariats avec les organismes en charge du dépôt légal de l’Internet : la BnF et l’Ina. Ceux-ci proposent des outils spécifiques pour naviguer dans les pétaoctets d’archives web amassées depuis plusieurs dizaines d’années, par exemple – sur certains corpus – la recherche plein texte, l’analyse de la tendance d’un terme ou des métadonnées et statistiques diverses.
Dans le DataLab, suite aux travaux conduits dans le projet ResPaDon, il est possible d’utiliser Hyphe pour explorer le web archivé par la BnF. Certains projets accueillis en partenariat peuvent aussi bénéficier de collectes « à la demande », pour lesquelles bibliothécaires et chercheurs vont s’associer pour constituer ensemble un corpus pérenne à des fins de recherche.

Il y en a donc pour tous les goûts, y compris pour les webmestres qui peuvent par exemple utiliser le service Arquivo404 pour proposer sur leur site un lien vers les archives web du Portugal quand la page est introuvable (pourquoi le Portugal me direz-vous, eh bien cette archive partage avec Internet Archive la caractéristique d’être en accès ouvert, là où la plupart des archives web institutionnelles, soumises aux conditions d’accès du dépôt légal, sont consultables uniquement sur place dans les établissements).

Si le sujet vous intéresse, on se retrouve le 13 mars à la BnF, ou à défaut sur Twitter et/ou Mastodon (oui c’est nouveau !) pour de nouvelles aventures avec les archives web.

Les fantastiques futurs de l’intelligence artificielle

La semaine dernière, j’ai eu la chance d’être invitée à me rendre à Stanford pour participer à la conférence Fantastic Futures, 2e du nom, un événement dont l’objectif était de faire émerger une communauté autour de l’intelligence artificielle pour les archives, les bibliothèques et les musées.

Spoiler : la communauté s’appelle AI4LAM, elle a un site web, des chaînes Slack et un groupe sur Google. Sinon, pour revoir la conférence, c’est par ici.

Cela ne vous aura pas échappé : l’intelligence artificielle est à la mode. On en parle à la radio, dans les journaux, des députés au style vestimentaire peu commun rédigent des rapports pour le Président de la République… et dans la communauté professionnelle, nous suivons le mouvement : voir par exemple la journée d’études du congrès de l’ADBU 2019 ou encore celle organisée hier à la BnF par l’ADEMEC (vidéos bientôt en ligne). Pourtant, si l’IA était une boîte de gâteaux, on pourrait écrire dessus « L’intelligence artificielle, innovante depuis 1956″…

Pour ma part, le sujet m’est pour ainsi dire tombé dessus, pour la 1e fois, quand on m’a invitée à participer aux Assises numériques du SNE en novembre 2017. Alors que nous préparions notre table-ronde, j’étais un peu dubitative sur ma participation, et j’ai été jusqu’à dire que de mon point de vue, la BnF n’utilisait pas encore en production de technologies d’intelligence artificielle. L’un des autres participants m’a alors dit « mais si ! l’OCR c’est déjà de l’intelligence artificielle ! » Et finalement, même si tout dépend de la définition (plus ou moins précise) que l’on en donne, ce n’est pas faux. Comme le disait Joanna Bryson à Stanford mercredi dernier, l’intelligence c’est la capacité à transformer une perception en action…

Que de chemin parcouru, pour moi, depuis 2017 !

En 2018, les explications de Yann Le Cun ont éclairé ma lanterne sur cette notion d’intelligence, de perception et ce qu’on appelle l’apprentissage (profond ou non, par machine ou pas !) L’exemple du Perceptron, sorte d’ancêtre de l’OCR, m’a permis de comprendre que mon manque supposé de familiarité avec l’intelligence artificielle relevait en fait d’un malentendu. Comme pour beaucoup de gens, l’intelligence artificielle évoquait pour moi une machine s’efforçant d’adopter des comportements plus ou moins proches de l’humain, l’un de ces comportements étant la capacité à « apprendre » comme le suggère le terme de « machine learning ».

Je me suis donc référée à Jean-Gabriel Ganascia pour tenter de désamorcer ces idées reçues et j’ai appris dans son opus daté de 2007 que la discipline informatique connue sous le nom d’ « intelligence artificielle » vise non pas à créer une machine dotée de toutes les facultés intellectuelles de l’humain, mais à reproduire de façon logique et mathématique certaines de ces facultés, de manière ciblée. Il y a autant de différence entre l’intelligence artificielle et l’humain qu’entre passer un OCR sur un texte et le lire…

Pendant que je plongeais dans ces découvertes, l’IA entrait bel et bien à la BnF, par la petite porte, celle de Gallica studio. Un peu plus tard, à la conférence Europeana Tech je (re)découvrais les rouages du prototype GallicaPix et obtenais encore d’autres exemples et explications avant d’en remettre une couche à LIBER 2018 (la répétition est l’essence de la pédagogie, n’est-ce pas…). Enfin, la première conférence Fantastic Futures était organisée en décembre 2018 à Oslo et inscrivait pour de bon l’IA sur notre agenda stratégique, à travers deux projets, l’un portant sur la fouille d’images dans Gallica dans la continuité de GallicaPix et l’autre sur la mise à disposition de collections-données pour les chercheurs dans le cadre du projet Corpus. J’ai même fini par intervenir sur le sujet dans un colloque organisé en octobre par les archives diplomatiques.

Me revoici donc en décembre 2019 à Stanford, prête à plonger dans le grand bain… Qu’ai-je retenu de ces 3 jours de conférence ?

D’une façon générale, cet événement fait apparaître l’idée que le sujet est encore assez jeune dans la communauté des bibliothèques, archives et musées. Alors qu’il existe une conviction solide et partagée que l’IA va transformer en profondeur la société, les méthodes de travail, et avoir un impact significatif sur nos institutions, la mise en pratique reste encore largement expérimentale.

Trois types d’acteurs ont néanmoins proposé une vision concrète, voire des réalisations effectives :

  • les acteurs de l’industrie, qui font état d’un déploiement déjà très avancé dans différents secteurs,
  • les acteurs de la recherche, qui multiplient les projets autour de données diverses, notamment celles des collections spécialisées qui se prêtent tout particulièrement à de telles expérimentations
  • enfin dans le domaine de la création artistique, à travers un artiste qui utilise l’IA dans le cadre d’une démarche d’interrogation sur la société et les rapports humains.

En termes de projets, deux types d’initiatives sont observables dans le domaine de l’IA pour les LAM.

En premier lieu, celles qui visent à mettre des données et collections numériques à disposition des chercheurs à des fins de fouille de texte et de données, en utilisant le machine learning. On peut citer par exemple le Lab de la Bibliothèque du Congrès qui a récemment obtenu un financement de la Mellon pour une expérimentation à grande échelle dans ce domaine. Certains de ces projets conduisent à développer des outils permettant aux chercheurs de s’approprier les modèles d’apprentissage ou des interfaces innovantes comme PixPlot, développé par le laboratoire d’humanités numériques de Yale, qui permet de manipuler des corpus de plusieurs milliers d’images que l’IA regroupe par similarité.

À l’exemple du prototype « Nancy » de la Bibliothèque Nationale de Norvège, d’autres projets visent en revanche l’automatisation de tâches actuellement réalisées manuellement par les bibliothécaires. Toutefois, Nancy reste une initiative expérimentale qui, si elle démontre efficacement les apports potentiels de l’IA pour le traitement des collections, serait très difficile voire impossible à industrialiser telle quelle sur la production courante. De même, les projets de traitement des collections du IA studio de la bibliothèque de Stanford, l’un d’eux portant sur une collection de romans du 19e s. numérisés mais non catalogués, s’attachent au traitement d’un corpus clos et bien défini et sont en réalité hybrides avec la catégorie précédente, car ils mobilisent également des chercheurs au travers de projets ciblés.

Pour finir, je retiendrai un certain nombre de thématiques phares qui sont revenues à plusieurs reprises, aussi bien dans la conférence elle-même que dans les workshops ou la « unconference » :

  • Les questions éthiques, bien connues en dehors de notre communauté mais abordées ici avec l’idée que des institutions publiques comme les bibliothèques pourraient devenir un acteur important pour porter cet enjeu au regard de l’industrie. L’idée de doter les projets d’un “plan de gestion éthique” comme on a des “plans de gestion des données” a émergé pendant le workshop que je co-animais.
  • Les enjeux de qualité des données, avec là aussi l’idée que les bibliothèques ont un savoir-faire qu’elles pourraient mobiliser pour apporter à l’industrie des jeux de données de qualité pour l’entraînement du machine learning.
  • Le développement d’interfaces graphiques, nécessaires pour comprendre les IA, les manipuler et interpréter les résultats (cf. PixPlot ci-dessus)
  • La formation, avec notamment l’exemple finlandais : l’IA est un enjeu global de société et chacun devrait pouvoir se former pour comprendre ce dont il s’agit. A cette fin, un cours en ligne a été mis en place, visant 1% de la population du pays. Une extension internationale du projet est en cours, avec sa traduction dans les différentes langues de l’Union Européenne.
  • Enfin les outils, données et modèles, avec un enjeu d’échanges et de mutualisation au sein de la communauté et un focus sur les documents spécialisés (manuscrits, images et cartes notamment, mais aussi son et vidéo). Le lien de ces problématiques avec IIIF a été constamment mis en avant.

Nous nous sommes quittés après 3 jours riches et intenses sur l’annonce de la création de la communauté AI4LAM que j’ai mentionnée plus haut. Et mon petit doigt me dit que mes futurs n’ont pas fini d’être fantastiques… Prochaine étape le 3 février dans le cadre du séminaire DHAI de l’ENS, où Jean-Philippe et moi présenterons les deux initiatives phares de la BnF dans ce domaine.

What is a lab ?

Mes pérégrinations autour du projet Corpus continuent (pour ceux qui n’auraient pas suivi les épisodes précédents, ils se trouvent ici et ). Les 13 et 14 septembre derniers, j’ai ainsi participé à une rencontre à la British Library sur le thème : « Building Library Labs« . Organisé par l’équipe du British Library Labs, ce séminaire a réuni plusieurs dizaines de bibliothécaires et chercheurs pour des ateliers de réflexion sur ce qu’est un « Lab » en particulier dans les bibliothèques nationales, à quoi ça sert, comment on le fait tourner et ce qu’on y fait.

Je serais bien en peine de résumer en détail les discussions très riches qui ont eu lieu lors de cette journée, mais parce qu’un joli dessin vaut mieux qu’un rapport de 150 pages (ou pas, enfin je vous laisse juger…) j’ai tenter de sketchnoter ce qui me semblait le plus important à retenir.

Pour transcrire tout ça en quelques mots : j’ai trouvé qu’il ressortait de ces journées une forme de consensus à la fois autour de l’approche proposée, de ses objectifs et de la définition de ce que peut être un « Lab » dans une bibliothèque nationale. En gros, toutes ces institutions investissent depuis 10 ans ou plus dans la constitution de collections numériques massives, et souhaitent à présenter développer des usages nouveaux de ces collections, en s’appuyant sur les possibilités ouvertes par l’outil informatique (genre TDM mais pas seulement).

Les bibliothèques nationales sont un peu différentes des bibliothèques universitaires : elles ne bénéficient pas toujours d’un bassin de population cible attribué (chercheurs et étudiants), mais par contre elles ont ces masses de données, plus ou moins accessibles, plus ou moins bien documentées, qui ne demandent qu’à rencontrer des usagers. Du coup, le public cible des « labs » n’est pas seulement composé de chercheurs, mais aussi d’artistes, d’entreprises, de développeurs, d’archivistes… et surtout, surtout, des bibliothécaires eux-mêmes : les collègues sont les premiers bénéficiaires du Lab.

Les composantes essentielles des Labs sont les données, qu’on cherche à diffuser de la manière la plus efficace possible, en les documentant et les assortissant d’exemples concrets. Le fait de proposer un site web comme point d’accès à tout cela est une première étape, voire dans certains cas un but en soi. Certains ont un lieu physique, d’autres non, mais tous organisent des événements, de différentes natures, essentiels pour faire communauté.

Une autre caractéristique majeure des Labs réside dans leur dimension expérimentale. Différents dispositifs, qu’il s’agisse d’appels à projets, de hackathons ou autres, conduisent à la création, en coopération entre bibliothécaires et chercheurs, de réalisations qui ne sont pas forcément vouées à durer. On s’autorise l’échec et on multiplie les outils et les compétences diverses pour réussir ces expérimentations sans avoir la pression des longs projets exigeants dont on a davantage l’habitude dans nos institutions.

Plusieurs bibliothèques pilotes en la matière, notamment la British Library et la KB aux Pays-Bas, ont raconté le « voyage » qui les a conduits où ils sont aujourd’hui. On a voyagé sur les routes de Grande-Bretagne avec le premier « roadshow » de nos collègues anglais, ri avec le créateur du premier et très basique site web de la bibliothèque néerlandaise. Et ensuite, on a tenté de mettre en commun nos approches dans un Google Doc gargantuesque qui devrait être transformé en livre dans les mois à venir. Vous pourrez aussi retrouver les vidéos sur la chaîne Youtube du BL Labs prochainement.

Côté BnF, le rapport d’Eleonora Moiraghi sur les besoins des usagers du futur service d’exploration des données propose des pistes de réflexion convergentes avec ces approches. Le carnet de recherche de la BnF relate les différents ateliers organisés dans le cadre du projet Corpus. Et le site API et données propose déjà une vue d’ensemble des données disponibles et des moyens d’y accéder.

Ma folle semaine embarquée dans la recherche

Je ne sais pas trop ce qui s’est passé avec mon agenda, j’ai dû avoir un bug dans la gestion des invitations, mais par un curieux hasard, faisant suite à ma présentation à Berlin en août, je me suis retrouvée à vivre une semaine presque entière immergée dans la problématique de la relation entre bibliothèques et chercheurs, abordée sous  différents angles. J’ai donc en gros raconté cinq fois la même chose en huit jours, ce dont je m’excuse auprès des collègues qui auraient assisté à plusieurs sessions, mais je crois que vous n’êtes pas très nombreux grâce au miracle de la géographie et à celui des silos institutionnels.

Tout a commencé vendredi 13 octobre à Francfort où, à l’occasion de la Foire du livre qui avait la France pour invité d’honneur, le CRL a organisé un symposium sur le thème « New Directions for Libraries, Scholars, and Partnerships: an International Symposium« . Rassemblant des bibliothécaires, surtout américains mais aussi originaires du monde entier, spécialisés dans les études de l’aire géographique romane, le symposium s’intéressait à l’évolution des services que les bibliothèques offrent aux chercheurs. Le terme de service, ici, n’est pas anodin : on évolue vers une logique moins centrée sur les collections et plus tournée vers les divers besoins que les chercheurs expriment : outils, méthodes, accompagnement, expertise, mais aussi numérisation et constitution de corpus numériques, négociation de licences d’accès à des ressources numériques, plans de gestion de données, etc. Le programme faisait une large place à divers exemples de projets mobilisant des technologies numériques et la session de posters était aussi remarquablement riche dans ce domaine.

Sautant dans un train tardif, je suis vite rentrée à Paris pour participer le samedi à la journée d’étude organisée par l’ADEMEC à l’Ecole des chartes, sur le thème « Humanités numériques et données patrimoniales : publics, réseaux, pratiques ». Je ne peux que souligner l’extraordinaire qualité de cette journée qui a été abondamment twittée et dont vous retrouverez le Storify ici et les captations vidéos là. J’en retiendrai tout particulièrement l’intervention conclusive de Paul Bertrand, qui a invité les institutions patrimoniales à inventer une critique externe de la donnée, permettant de la contextualiser et de la qualifier afin qu’elle devienne un objet d’étude et d’analyse maîtrisable et maîtrisé.

Retour à la maison le lundi pour un atelier ouvert que nous organisions avec des collègues du projet Corpus (special thanks to Jean-Philippe et Eleonora) et avec les chercheurs de l’équipe Giranium du CELSA, qui est notre équipe « compagnon » sur le projet cette année. L’atelier avait pour thème « Décrire, transcrire et diffuser un corpus documentaire hétérogène : méthode, formats, outils » et a permis à des équipes de chercheurs issues de différentes disciplines et travaillant sur des périodes  chronologiques parfois lointaines d’échanger sur leurs méthodes de travail communes dans le monde numérique. Nous vous préparons un petit billet de blog pour synthétiser tout cela, à suivre sur le carnet de recherche de la BnF [edit : c’est en ligne !].

Hop hop, je saute à nouveau dans le train pour me rendre à Lille, où se déroule la journée d’études de l’ADBU : « Les bibliothécaires, acteurs de la recherche« . On retrouve nos collègues allemands et hollandais avec leur préoccupation de développer, dans les bibliothèques universitaires, des « services support aux chercheurs » qui vont de l’accompagnement dans l’étape de l’appel à projets jusqu’à la préservation des données de la recherche. Et en France, beaucoup de choses aussi : des bibliothèques qui publient des revues en open access, qui accompagnent les chercheurs dans la constitution des corpus et la qualification des données, qui animent des communautés ou encore produisent des études bibliométriques.

Pendant ce temps, à Paris, le colloque « Humanités numériques et Sciences du texte« , organisé par le DIM Sciences du texte et connaissances nouvelles, avait déjà commencé. Forcément, je n’y étais pas, je n’ai pas encore le don d’ubiquité, mais je les ai rejoints le vendredi pour la dernière journée. En regardant le programme, on perçoit le message que les organisateurs ont tenté de faire passer : l’idée des humanités numériques comme une communauté de pratiques transdiciplinaire, s’exprimant à travers une grande diversité de méthodes et de problématiques. J’ai été entre autres ravie d’entendre Dominique Cardon expliquer en live les théories que j’avais lues avec beaucoup d’intérêt dans son ouvrage À quoi rêvent les algorithmes. Il faudrait que je revienne dessus dans un autre billet parce que là, ce serait un peu long.

Au final, qu’est-ce que je retire à chaud de cette folle semaine ? D’abord, l’évidente actualité de la question des humanités numériques à la fois dans la profession et chez les chercheurs qui sont nos partenaires naturels. Je ne suis pas très fan de ce terme mais j’avoue que pour moi, quelque chose de cohérent commence enfin à se dessiner. Vue de ma fenêtre à la BnF, cette chose peut se résumer de la manière suivante : le concept du « data librarian » tel qu’on l’annonce depuis plusieurs années dans la profession commence à être identifié par les chercheurs comme une ressource. Il y a encore du travail mais petit à petit, notre image change et on est de plus en plus perçus dans notre rôle de « passeurs » autour des collections numériques, parce qu’on connaît leur contenu, leur format, les outils qui permettent de les exploiter, les métadonnées qui permettent de les contextualiser et le retour d’expérience des autres chercheurs avec lesquels on a déjà travaillé. Comment s’empare-t-on de ce rôle de passeurs ? Il y a plusieurs formes : accompagnement, partenariat, service, plateforme, laboratoire… les modalités sont encore à inventer, ce qui nous promet quelques années passionnantes pour le futur.

Disclaimer : il semblerait que quelqu’un qui me connaît bien ait profité de l’un de ces événements pour enrichir ma biographie d’un élément non validé. Alors pour ceux qui se posent la question, non je ne me lance pas dans la rédaction d’une thèse ! Par contre, on m’a parlé récemment d’un dispositif de doctorat sur travaux qui m’intéresse bien et pourrait déboucher sur quelque chose. À suivre…

Plongée dans les humanités numériques à Berlin

Cette année, mes pérégrinations estivales ne m’ont pas conduite à l’IFLA en Pologne (coucou à ceux qui y sont !) mais « seulement » à l’une des conférences satellites, organisée par la section des Bibliothèques académiques et de recherche conjointement avec DARIAH et LIBER. Cette conférence, qui s’est donc tenue à Berlin du 15 au 17 août, avait pour thème Digital Humanities – Opportunities and Risks: Connecting Libraries and Research et j’étais invitée à présenter l’une des deux « keynotes », l’occasion pour moi de parler du projet Corpus qui est l’un de mes centres de préoccupations phares du moment.

iflaDH

La conférence a commencé par une intervention introductive de Toma Tasovac, directeur du Centre pour les Humanités Numériques de Belgrade à qui a été posée la difficile question : comment peut-on définir les humanités numériques ? Il répond : avec réticence. Les humanités numériques ne sont pas une discipline, mais une communauté de pratiques.

Les présentations de la journée suivante ont brillamment illustré la diversité des pratiques en question, de l’organisation d’un éditathon dans Wikipédia à la création d’une collection d’archives web en histoire de l’art, de l’exploration approfondie d’un poème d’Apollinaire à la création d’un site collaboratif documentant le patrimoine architectural brésilien. Dans ma propre présentation, j’ai donné plusieurs exemples de projets dans lesquels la BnF a été impliquée, qui posent pour la bibliothèque la question de la mise à disposition de corpus numériques massifs dans le contexte de la science numérique (digital scholarship – expression que je trouve plus inclusive que celle d’humanités numériques, car certains des projets sur lesquels nous travaillons ne viennent pas des humanités). Ruth Wallach est revenue sur cette question de savoir « qui en est, qui n’en est pas » en citant Stephen Ramsay : sommes-nous tous des « edupunks » qui faisons des humanités numériques à la mode artisanale, avec les moyens du bord ?

Cependant, en tant que satellite de l’IFLA, cette conférence ne s’intéressait pas aux DH en soi mais en tant qu’elles questionnent le rôle des bibliothèques. Dans sa présentation, Toma Tasovac a appelé de ses vœux des bibliothèques numériques qui offriraient un accès aux textes non pas comme des objets statiques, mais sous la forme de services et de workflow, permettant non seulement de les utiliser de façon flexible via des API mais aussi de reverser les enrichissements réalisés par les chercheurs.

Sur ce dernier point, il prenait l’exemple de l’OCR en rappelant qu’il « ne faut pas avoir honte d’un mauvais OCR » mais qu’il est par contre important de permettre aux chercheurs de le corriger.

Dans ce contexte, les bibliothèques numériques sont vues comme des infrastructures qui doivent permettre aussi bien la lecture rapprochée que distante (close reading, distant reading). Elles partagent avec les DH l’enjeu de l’interopérabilité et de la communication. Certaines données peuvent être d’accès restreint (Toma utilise l’excellent euphémisme shy data) mais il est important d’expliciter les conditions de leur usage par les chercheurs : c’est le but de la future « Charte de réutilisation des données culturelles » que DARIAH et Europeana sont en train d’élaborer. Si ce sujet vous intéresse, je vous engage à répondre au sondage en cours sur les principes de la charte.

S’est également posée la question de savoir quelle formation il serait nécessaire de donner aux bibliothécaires chargés de ces questions. Lotte Wilms, qui travaille au Lab de la KB (Pays-Bas), a présenté un programme de formation sur 5 jours, qui se tiendra à la rentrée, et dont les composants essentiels rappellent fortement ce qui pourrait être la formation de base d’un data librarian...

Si vous souhaitez en savoir plus, voire rejoindre la communauté des « DH librarians », sachez que deux groupes de travail sont en train de se monter, de façon complémentaire : un groupe « libraries » au sein de DARIAH piloté par Tamara Butigan et Sally Chambers, et un groupe « Digital Humanities » au sein de LIBER piloté par Lotte Wilms et Andreas Degkwitz (plus d’infos ici). A suivre donc, l’un des prochains épisodes étant le symposium auquel je participe à Francfort en octobre : New Directions for Libraries, Scholars, and Partnerships: an International Symposium et peut-être plus près de vous géographiquement, la journée d’études de l’ADEMEC à Paris le 14 octobre : Humanités numériques et données patrimoniales : publics, réseaux, pratiques. Venez nombreux, en plus c’est gratuit !

LD4P : un « grand soir » pour les bibliothèques américaines ?

 

La semaine dernière, j’étais invitée par Stanford à participer, en tant qu’expert, à un atelier du projet LD4P (Linked Data For Production). Ce projet financé par la Mellon Foundation a pris la suite d’un précédent projet nommé LD4L (Linked data for Libraries) ; il s’agit cette fois d’une initiative conjointe de plusieurs grandes bibliothèques universitaires américaines (Stanford, Harvard, Cornell, Columbia, Princeton) et de la Library of Congress, qui vise à développer concrètement le catalogage « en linked data » pour reprendre leurs propres termes. L’objectif du meeting était de présenter les résultats du projet à ce jour et d’obtenir le retour de la communauté. Une bonne occasion pour moi de remettre à jour mes connaissances sur ce sujet et de mieux comprendre le positionnement des bibliothèques américaines dans la transition bibliographique aujourd’hui.

Le projet LD4P se découpe en fait en plusieurs sous-projets qu’on peut classer en trois catégories :
– ceux qui visent à développer l’ontologie Bibframe et ses extensions,
– ceux qui travaillent sur le processus de catalogage

– ceux qui travaillent sur les outils.

Souvenez-vous, Bibframe c’est ce standard dont l’ambition est de remplacer les formats MARC. Développé et maintenu par la Library of Congress, il est actuellement dans sa version 2.0. – cette nouvelle version parue en avril 2016 est d’ailleurs l’un des livrables du projet.

Comme je le soulignais déjà en 2014, Bibframe constitue un cadre assez générique pour la description de documents de bibliothèque. L’un des objectifs de LD4P est donc de compléter cet effort de modélisation afin de permettre son implémentation concrète, en commençant plutôt par des documents spécialisés (documents cartographiques et géographiques, livres rares, image animée, musique jouée etc.). Le présupposé est qu’il est préférable de partir de cas complexes qu’on pourra ensuite généraliser pour des documents plus simples, plutôt que de commencer par le livre et ensuite se retrouver en difficulté face aux documents spécialisés.
Ce travail a donné naissance à une version dérivée de Bibframe nommée Bibliotek-o ainsi qu’à plusieurs extensions pour les types de documents pré-cités. Il faut cependant noter que certains services, comme le réseau Library.link, utilisent encore d’anciennes versions de Bibframe (Bibframe 1.0 ou Bibframe lite).

Tout ceci débouche sur une prolifération de modèles plus ou moins divergents qui inquiètent les porteurs du projet, ceux-ci se demandant si on ne serait pas en train de constituer de nouveaux silos. Contrairement à ce que laissait espérer le web sémantique tel qu’on l’envisageait au départ, on en arrive à la conclusion qu’on est loin d’être débarrassés des problématiques de conversion, transformation et recopie de données.

Du côté des outils, ce n’est donc pas seulement la question du convertisseur MARC -> Bibframe ou de l’éditeur de données en RDF qui se pose, mais aussi celle de toute la galaxie des outils qui vont permettre de traiter, réconcilier, aligner, contrôler, enrichir, convertir, diffuser et exploiter ces données dans leur nouveau format qui se pose. Les partenaires du projet ont commencé à établir un registre des outils disponibles qui ont été évalués dans ce cadre.

Un des aspects les plus intéressants de LD4P est à mon avis le sous-projet « tracer bullets » qui ambitionne d’articuler plusieurs de ces outils pour démontrer la faisabilité d’une implémentation de bout en bout, pour un sous-ensemble de documents, d’un processus ou workflow basé sur RDF. C’est justement Stanford qui pilote ce sous-projet.
4 types de workflow de catalogage ont été identifiés :
– récupération et enrichissement de données provenant d’un éditeur
– création manuelle de données à l’unité
– dérivation depuis un réservoir type WorldCat
– récupération de données en masse.

Dans un premier temps, c’est le premier workflow qui a été exploré, grâce à une collaboration avec l’éditeur italien Casalini Libri. Stanford bénéficie d’un avantage par rapport aux bibliothèques qui disposent d’un catalogue intégré dont l’interface de consultation pour les usagers repose sur la même base que la production : leur système d’accès est distinct du système de production, il est basé sur le moteur de recherche SolR et le système Blacklight. Le projet « tracer bullet » consiste donc à récupérer les données de l’éditeur, les compléter notamment des liens aux autorités, les transformer de MARC à Bibframe et enfin les verser dans SolR pour l’accès. Il a ainsi été possible de démontrer qu’on pouvait « brancher » sur le système d’accès un nouveau système de production basé sur Bibframe, sans perte de qualité dans l’expérience utilisateur.

La dernière session de travail de ces deux jours était consacrée aux questions de gouvernance, d’engagement des communautés, de formation etc. J’ai participé aux discussions sur la formation, ce qui m’a permis de mesurer l’importance que semble avoir pris le web de données aux yeux des bibliothécaires américains : loin du postulat que je faisais en 2014 en disant qu’il ne me semblait pas utile que tous les bibliothécaires soient formés au RDF, aux ontologies et autres arcanes du web semantique, nos collègues d’outre Atlantique semblent considérer que ce sont là les bases de la profession que tout le monde devrait a minima connaître.

À l’heure où je suis pour ma part (avec mon complice des Petites Cases) plutôt dans une démarche consistant à replacer le web sémantique dans un horizon plus large des données de bibliothèques, cette place étant plus du côté de l’interopérabilité et du partage que de celui de la production, ce décalage m’a pour le moins étonnée. Est-il dû aux années d’expérience que nous avons acquise, en France, sur la gestion de données RDF en production ?

Il ne faut pas oublier que les bibliothèques américaines sont confrontées à une situation bien différente de la nôtre. Leur format, MARC21, ne contient pas de liens entre notices bibliographiques et notices d’autorité : le seul point de contact se fait à travers les « noms », formes figées retenues pour dénommer ces entités de façon normalisée. Cette absence de lien constitue un handicap majeur pour la transition vers des modèles de type FRBR et vers le web de données, d’où une urgence plus grande à changer. Et tant qu’à changer, autant passer directement au format « du futur » plutôt que de faire subir des évolutions majeures à un MARC vieux de cinquante ans.

Par ailleurs, la déconnexion plus importante entre les notices bibliographiques et les données d’autorité qui en résulte conduit à une vision du catalogue comme un réservoir de notices figées appartenant au passé. Phil Schreur, de Stanford, compare ainsi les réservoirs de notice MARC à une dette que nous devrons payer un jour : il nous propose de ne pas aggraver cette dette en créant de nouvelles notices en MARC, mais de commencer dès que possible à produire dans le format de demain, la question du paiement de la dette (ou de la migration de l’existant) étant temporairement remise à plus tard.

La situation est sans aucun doute bien différente pour des bibliothèques françaises qui disposent déjà de données liées, même si elles sont encodées en Intermarc ou en Unimarc plutôt qu’en RDF. Nos catalogues lient ainsi de façon très organique données bibliographique et d’autorité, production et accès, création de notices et gestion de données vivantes. Cet état de fait nous donne une certaine avance (qui sera sans doute notre retard de demain…) et nous permet d’envisager une transition bibliographique plus progressive et plus étalée dans le temps : comme le disait récemment une collègue, « Pas de grand soir, mais beaucoup de petits matins ».

Des nouvelles d’Europeana

Du 7 au 9 novembre derniers, j’ai assisté à l’assemblée générale de l’association du réseau Europeana (Europeana Network Association), précédée de la réunion du conseil des membres. Je poste mon compte-rendu ici car comme vous le savez, la participation à l’association se fait à titre individuel : au sein du conseil des membres, je représente l’ensemble de ma communauté (vous tous, chers lecteurs, qui que vous soyez !)

Un petit rappel sur la gouvernance avant de commencer : pour mémoire, Europeana marche aujourd’hui sur deux jambes. La première est son organe opérationnel ou exécutif, la Fondation Europeana, en charge de la mise en œuvre du portail Collections notamment. La deuxième est l’Association, qui rassemble l’ensemble du réseau dans toute sa diversité : bibliothécaires, archivistes, conservateurs de musées mais aussi enseignants, historiens, éditeurs, entrepreneurs de start-ups et simples usagers. L’Association est pilotée par un conseil des membres (Members Council) dont 6 représentants forment le Management Board. Les membres de ce Management Board siègent également au Governing Board de la Fondation : l’instance qui pilote le tout, en lien avec les États membres et la Commission Européenne. En images :

Donc Assemblée générale de l’Association : il s’agit de la grande rencontre annuelle de tous les membres du réseau, qui se tenait cette année à la bibliothèque nationale de Lettonie à Riga.

Parmi les sujets à l’ordre du jour, la nouvelle stratégie d’Europeana suite aux conclusions du conseil de l’Europe en mai dernier. Cette nouvelle stratégie repose sur deux grands axes :
– d’une part, pour les institutions patrimoniales, faciliter considérablement le versement de données dans Europeana,
– d’autre part, moderniser la manière dont les usagers accèdent au contenu, en mettant l’accès sur les usages pédagogiques et les accès thématiques.

Sur le premier point, nous avons eu droit à une présentation du nouveau procédé « operation direct » qui permettra de charger dans Europeana des documents numériques directement via une API très simple ou à partir d’un CMS, par exemple. Ce mode de versement ne se substitue pas au fonctionnement actuel avec les agrégateurs, mais il en est complémentaire. Le rôle de IIIF dans l’évolution du modèle d’agrégation a aussi été plusieurs fois souligné (cf. aussi cette très bonne explication de IIIF en français).
Sur le deuxième point, le portail Collections avec ses 53 millions d’objets numérisés a donc vocation à se trouver un peu en retrait, à l’avenir, par rapport aux collections thématiques comme Musique, Histoire de l’art et bientôt Mode, Photographie, Presse etc. C’est l’occasion d’annoncer que pour la première fois, la Commission européenne se propose de financer des projets de médiation autour des collections numériques d’Europeana (projets à soumettre avant le 15/12).

Bien d’autres sujets ont été abordés au cours de cette assemblée générale. Les collègues américains étaient à l’honneur : ont partagé leur expérience les professionnels de DPLA, du Getty ou encore de NYPL Labs. Il a été également question à plusieurs reprises de Wikidata.
Des questions importantes pour l’avenir du réseau ont été posées, comme celle du mandat donné à Europeana pour faire du lobbying dans le domaine du copyright ou l’évaluation de l’impact de la bibliothèque numérique européenne.
Ajoutez à cela le format « chef’s tables » qui a permis d’aborder un grand nombre de sujets, du design orienté utilisateur à l’agrégation en passant par l’utilisation d’Europeana pour la recherche, et une vingtaine d’« ignite talks » : vous aurez une idée du brassage très large d’idées qui caractérise ce réseau riche et divers.

La conférence s’est terminée sur une table ronde animée par David Haskiya sur le thème « et si tout était à refaire ? » L’occasion de rappeler que même si le résultat est loin d’être parfait, Europeana nous a permis de progresser énormément sur le plan technique et de créer une dynamique autour des contenus numériques culturels. Un effort que la communauté réunie la semaine dernière à Riga est motivée à poursuivre.

Pour en savoir plus :

3 minutes pour Europeana

Amis internautes, gallicanautes, bibliothéconomes et divers autres, j’ai un service à vous demander et cela ne vous prendra en tout et pour tout que 3 minutes.
1) rendez-vous sur le portail Europeana Collections (NB : utiliser « settings » à droite pour passer l’interface en français)
2) cherchez votre auteur, artiste, document, personnage ou animal préféré
3) dans la colonne de gauche, cliquez sur « yes with attribution/oui avec attribution »
4) choisissez un des résultats proposés
5) à droite cliquez sur « partager avec » votre réseau social préféré (Twitter, Facebook…)

6) écrivez « Je suis [nom que vous avez recherché] et je suis dans @EuropeanaEu #AllezCulture ! »

Voilà, c’est tout, si vous ne voulez pas y passer plus de 3 minutes vous pouvez vous arrêter ici. Merci beaucoup !

 

Pour ceux qui auraient besoin de savoir pourquoi je vous demande cela, voici quelques explications complémentaires.
Comme vous le savez, l’an dernier j’ai été élue membre du « Members Council » d’Europeana. Parmi mes responsabilités figure celle de faire appel à mon réseau (oui ! C’est vous !) quand Europeana a besoin d’aide. Et aujourd’hui, Europeana a besoin de votre aide.
A la fin du mois, une réunion des représentants culturels des états membres de l’Union européenne va discuter de l’avenir d’Europeana. Jusqu’ici celle-ci ne dispose pas d’un mode financement stable : sa pérennité et même sa survie sont en jeu. C’est donc le moment, plus que jamais, de consacrer 3 minutes de votre temps à dire qu’Europeana compte pour vous. Pour cela nous vous invitons à participer à la campagne #AllezCulture dont le principe est expliqué en anglais sur le blog Europeana et en français sur le blog Gallica.

 

Peut-être n’avez-vous que très peu l’usage du portail Europeana et pensez-vous que votre bibliothèque numérique locale ou nationale rend déjà la plupart des services que vous espérez (de l’inspiration pour votre prochain tatouage à la « une » de la presse d’il y a 100 ans…)
Mais il ne faut pas oublier que si l’ambition d’une bibliothèque numérique européenne n’avait pas suscité la numérisation de masse, Gallica aurait peut-être continué la numérisation au même rythme qu’auparavant et compterait moins de 100.000 documents au lieu des 3,5 millions qu’elle propose aujourd’hui. Que certains pays européens et certaines institutions n’auraient pas pu démarrer leurs programmes de numérisation si Europeana n’avait pas été présente pour les soutenir, techniquement et financièrement.
Nous savons aussi, nous professionnels de la culture, qu’Europeana ce n’est pas seulement un portail mais un réseau d’experts qui s’engage dans la défense du domaine public et de l’open data, invente le modèle d’agrégation de demain et milite d’une façon générale pour la diffusion la plus large de la culture sur le web dans tous les pays d’Europe.

 

3 minutes de votre temps, c’est tout ce que nous vous demandons pour contribuer à affirmer votre attachement à ces valeurs et votre souhait qu’Europeana puisse continuer à exister, à fédérer les énergies en faveur de la numérisation du patrimoine et de sa diffusion et à fournir le terreau d’innovations technologiques partagées.
Et si vous avez un peu plus de temps et d’énergie à consacrer à la cause, vous pouvez adhérer à l’association du réseau Europeana : c’est gratuit, cela ne prend que quelques minutes là aussi, et cela vous permettra de recevoir régulièrement les informations du réseau.