Au CERN, le berceau du web (ECREA workshop)

Publié le 23/03/2025 par manuefig

En ce début février 2025, j’ai eu la chance de participer à la conférence-atelier de la section « Histoire de la communication » de l’ECREA qui portait sur l’histoire des réseaux de communication avant et après le web, et se tenait en Suisse, au CERN. Je pense que le choix du lieu n’a pas été étranger au succès de cet événement qui, aux dires des organisateurs et organisatrices, a suscité environ deux fois plus de propositions que leurs conférences habituelles, les conduisant à organiser l’ensemble de la conférence sur deux sessions parallèles. Mais bon, il faut dire qu’aller parler de l’histoire du web là où il a été créé, c’est quand même énorme !

J’avais pour ma part choisi cette conférence pour ma toute première communication autour de mon projet SkyTaste qui porte sur l’histoire de la plateforme Skyblog (pour en savoir plus sur ce projet et sur Skybox, son jumeau, ça se passe sur Webcorpora). Plusieurs raisons pour ce choix : d’abord pour l’ancrage disciplinaire, en effet il me tenait à cœur de le présenter dans une conférence d’historiens et historiennes. Mais aussi parce que l’appel à communication faisait la part belle à la question des imaginaires autour des réseaux, et je trouvais que ça collait bien. Je n’ai pas été déçue.

Je vous propose de revivre ici quelques temps forts de la conférence, sans aucune ambition de représentativité complète.

Matérialité des réseaux et écologie : imaginaire de la ruine

Quand on étudie principalement des réseaux numériques, soi-disant virtuels, la confrontation avec leur matérialité (enchevêtrements de câbles, salles machines, etc.) provoque toujours une certaine émotion. Il y a une poésie dans ces installations fonctionnelles dans lesquelles on n’a pourtant pas nécessairement injecté beaucoup d’amour et d’esthétique : d’ailleurs, le campus du CERN se pose là en la matière, tout y est gris et rectangulaire, ostensiblement moche, comme si réfléchir au design de ces bâtiments dédiés à la science dans ce qu’elle a de plus « dur » aurait risqué de les rendre moins sérieux. Mais bon, prenez un groupe de chercheurs et chercheuses en sciences humaines et déposez-les là, vous les entendrez s’extasier sur l’esthétique des poteaux téléphoniques, avouer (à l’image de Nicole Starosielski) que visiter le plus de « Cable Landing Stations » possibles dans le monde est leur but ultime dans la vie, ou encore prendre en photo frénétiquement les installations de communication vintage qui semblent ici encore en service.

Avec son film Do sheeps dream of electric ruins, Matt Parker, artiste multimédia, nous a proposé un moment hors du temps, sur les rives irlandaises, au milieu d’un troupeau de moutons qui reconquiert les ruines d’une ancienne station du télégraphe. Ça dure onze minutes, c’est contemplatif et poétique, ça parle de réseaux, de nature, de notre monde et de ce qu’il devient. Regardez-le.

Avant le web (et à côté)

Avez-vous déjà entendu parler des BBS (Bulletin Board Systems) ? Aviez-vous déjà pensé au rôle qu’a pu jouer le fax dans l’idée de travail à distance ? Comment faisait-on dans les années 1980 pour faire fonctionner un ordinateur personnel ? Saviez-vous qu’avec le fournisseur d’accès Freesbee, en 2000, aller sur Internet était « non seulement gratuit, mais moins cher » ? En abordant « l’avant » web, la conférence a permis de replacer l’histoire du web dans le temps long.

Jesper Verhoef nous a ainsi présenté le fax « en tant que proto-Internet » et montré comment celui-ci avait commencé à remettre en cause l’équilibre entre vie privée et professionnelle (bien avant que cette question ne se pose de nouveau autour de WeChat en Chine avec Yinan Sun). Kevin Driscoll a étudié le magazine Byte, qu’il assimile à une « communauté par voie postale » utilisant le courrier des lecteurs (et le courrier tout court) pour échanger des infos à une époque où quand on achetait un ordinateur, il ne contenait pas de programmes et il fallait les rentrer soi-même. Valérie Schafer s’est intéressée à la collection de kits d’accès à Internet d’Alain Letenneur pour découvrir ce que le CDrom peut avoir à nous apprendre sur l’Internet des années 2000, son modèle économique, son imaginaire. Niels Brügger a étudié la presse danoise entre 1979 et 1999 pour découvrir comment les réseaux informatiques étaient perçus au Danemark à l’époque (à voir absolument : le site vintage du projet Webhistorie.dk). Susan Aasman a retracé l’évolution de la vidéo en tant que média, des années 1970 à TikTok.

Je pourrais continuer à multiplier les exemples, citer toutes les communications que j’ai entendues (et aussi celles que j’ai loupées parce qu’il y avait deux sessions parallèles)… mais je crois que l’idée à retenir est surtout celle de la recherche d’une forme de continuité ou d’éclairage des transformations que nous vivons à l’heure de la culture numérique et d’Internet, à la lumière d’évolutions plus lointaines et profondes des moyens de communication.

Le berceau du web

Jouant le jeu de nous emmener à l’endroit précis où Tim Berners Lee a imaginé le web, dans le bâtiment 31, en face du data center, les organisateurices de la conférence ont aussi invité trois éminents témoins à nous raconter le CERN au tournant des années 1990 : Robert Cailliau, François Flückiger et Pier Giorgio Innocenti. C’était l’occasion de les entendre évoquer les différents facteurs qui ont fait du web, tel que pensé par Tim Berners Lee dans sa proposition initiale (la fameuse qui a récolté le commentaire « vague but exciting »), une réussite alors que tout le monde travaillait sur des idées similaires à l’époque. Parmi les ingrédients secrets évoqués :

50% de chance, si on en croit Robert Cailliau,
le cerveau de Tim Berners Lee, que personne ne comprenait vraiment ^^ mais qui a pensé les choses de manière globale dès le début,
une idée géniale : l’URL, une chaîne de caractères unique contenant à la fois un protocole, l’adresse d’un serveur, l’emplacement et le nom d’une ressource,
le CERN lui-même, un lieu unique avec une forte expertise, pas de problèmes d’argent et une foule d’ingénieurs habitués à résoudre des problèmes,
la simplicité : le web fonctionnait avec seulement deux standards, HTTP et HTML, presque trop simples pour attirer l’attention (au point que l’article proposé par Tim Berners Lee et Robert Cailliau à la conférence Hypertext de 1991 au Texas fut refusé),
l’erreur 404 : le web pouvait fonctionner sans qu’on ait besoin de réparer tous les problèmes,
enfin et peut-être surtout : la décision prise par le CERN de renoncer à ses droits sur l’invention, et l’utilisation d’une licence ouverte.

Photo d'un bâtiment industriel portant le nom "The CERN data centre - centre de calcul du CERN" — Centre de calcul du CERN

Devant un bâtiment des années cinquante, une cage contient des souris (informatiques), d'autres sont suspendues à un arbre — Centre de calcul du CERN

En 1995, François Flückiger publie le livre Understanding Networked Multimedia. Selon lui, la plupart des choses, bonnes ou mauvaises, qu’il y avait prédites se sont produites… Mais personne n’avait vu arriver les réseaux sociaux. Une question structurante en matière d’histoire du web.

Des émotions, toujours des émotions !

Les émotions étaient au rendez-vous à travers cette histoire des réseaux et du réseau, et au premier rang de celles-ci, la nostalgie. Le « web d’avant » apparaît comme un espace majoritairement, sinon totalement, tourné vers le partage de la connaissance, porté par des acteurs académiques ou associatifs, voire par les communautés elles-mêmes, espace d’expression d’une contre-culture s’opposant aux modèles de domination capitalistes (et autres).

Dans les travaux de l’initiative « Matter of imagination« , portée par Anya Shchetvina et Nathalie Fridzema, les émotions (nostalgie, beauté, intimité, esprit de jeu, confort…) et les imaginaires (avec des métaphores spatiales : jardins, maisons, autoroutes…) jouent un rôle important pour faire apparaître une opposition entre ce « web d’avant », plus personnel et authentique, et le web commercial contrôlé par les plateformes. Mais ce n’est pas seulement une question de nostalgie : c’est aussi une opposition économique entre le web vu comme un bien commun et les plateformes qui le transforment en espace privé. Se tourner vers le web du passé apparaît comme un moyen de contrecarrer les caractéristiques communes du web, en recherchant une expérience où le web est « lent » plutôt que rapide, « petit » plutôt que gigantesque. À l’exemple du Yesterweb, un mouvement né en 2021 sur Discord, on s’autorise à rêver d’un retour aux sources du web, en faisant la démarche de s’éloigner d’un « web principal » (core web) dominé par des plateformes commerciales en situation de monopole (typiquement, les GAFAM), pour aller vers un « web périphérique », plus discret et reposant sur d’autres modèles de gouvernance.

Nous avons été plusieurs à faire le lien entre ces émotions et la notion de patrimoine. Ainsi, Christian Schwarzenegger étudie la patrimonialisation du jeu vidéo en s’interrogeant sur les émotions liées à la jouabilité et aux réseaux de gamers, dans l’Allemagne des années 80. On retrouve le côté contre-culture, en découvrant comment les jeux vidéos parvenaient à passer le mur qui séparait l’Allemagne de l’Est et de l’Ouest et à permettre l’émergence de réseaux « pirates ». Mais ce n’est pas tout… En organisant des ateliers avec des communautés de gamers, Christian pose la question de ce qu’il est possible ou souhaitable de patrimonialiser pour rendre compte de cette expérience, cherchant tout particulièrement à identifier les émotions qui sont liées au jeu et les éléments qui sont susceptibles de les susciter à nouveau, dans la perspective de la collecte ou la création d’un nouvel objet patrimonial. La démarche est en fait très proche de ce que j’essaye de faire avec mon étude des émotions patrimoniales liées aux skyblogs (pour en savoir plus, vous pouvez consulter le résumé de mon intervention en attendant que je trouve un moyen / le temps de la publier).

Pour finir, un peu de théorie

Dans la dernière session parallèle à laquelle j’ai assisté, Leah Lievrouw et Paolo Bory sont revenus aux fondements théorique de l’analyse des réseaux en sociologie et en théorie de la communication : Gabriel Tarde (1843-1904) dont les théories ont bien plus tard influencé la théorie de l’acteur-réseau de Bruno Latour &co, Georg Simmel (1858-1918), Ferdinand Tönnies (1855-1936) et plus proches de nous, Paul Baran (auteur d’une représentation bien connue des différents types de réseaux), Patrice Flichy ou encore Pierre Musso.

Cette image schématise 3 types différents de réseau : centralisé (1 noeud avec des liens en étoile), décentralisé (plusieurs noeuds reliés entre eux, avec chacun leur étoile) et distribué (plusieurs noeuds reliés à la façon d'un filet ou d'une grille). — Les différents types de réseau selon Paul Baran (via Paolo Bory)

Ce retour aux fondamentaux fait apparaître une vision anti-structuraliste, « anti-Durkheim » des réseaux comme environnements inter-personnels qui commencent avec des relations sociales avant que leurs interactions ne fassent apparaître et évoluer des structures. À trop se focaliser sur la catégorisation des nœuds, plutôt que de s’intéresser à la nature constamment changeante (« ever-changing« ) des liens, les réseaux acquièrent une dimension aliénante. L’idée d’un réseau décentralisé comme le web portait de grands espoirs en terme de connexion, d’interopérabilité, de créativité, etc. De fait, à travers les plateformes, elle débouche sur un réseau atomisé, où les individus ne sont pas reliés mais divisés et séparés, tandis que le réseau ne cherche qu’à se nourrir lui-même. Est-ce vraiment le type de réseau que nous voulons ?

Quelques références

Fluckiger François, Understanding networked multimedia: applications and technology, London, Prentice Hall, 1995.

Berners-Lee Tim et Fischetti Mark, Weaving the Web: the past, present and future of the World Wide Web by its inventor, London, Orion business book, 1999.

Castells Manuel, The rise of network society, Oxford, Blackwell, 1999.

Brügger Niels (ed.), Web 25: histories from the first 25 years of the World Wide Web, New York, Peter Lang, 2017.

Aasman Susan, Fickers Andreas et Wachelder Joseph (eds.), Materializing memories: dispositifs, generations, amateurs, New York, Bloomsbury Academic, 2018.

Schafer Valérie (ed.), Temps et temporalités du Web, Nanterre, Presses universitaires de Paris Nanterre, 2018.

Brügger Niels, The archived web: doing history in the digital age, Cambridge, Massachusetts, MIT Press, 2018.

Turner Fred, Vannini Laurent et Cardon Dominique Préfacier, Aux sources de l’utopie numérique: de la contre-culture à la cyberculture, Stewart Brand, un homme d’influence, Caen, C&F éditions, 2021.

Musso Pierre, L’imaginaire du réseau, Paris, Editions Manucius, 2022.

Recherche : bilan personnel 2024

Publié le 30/01/2025 par manuefig

Sur le modèle de ce que j’avais fait en 2023, voici mon bilan de recherche annuel : je précise que l’objectif principal de ce listing laborieux est 1) d’évaluer mon propre avancement sur une part de mon travail qui n’est pas évidente à mesurer et 2) d’avoir des données sous la main pour les évaluations Hcéres et autres. Au passage, cela permet de donner quelques nouvelles fraîches à défaut de blogging régulier ;-)

Mes sujets et projets de recherche

L’un des principaux défis, dans la liberté sans bornes qu’offre un poste d’enseignante-chercheuse, consiste à ne pas se disperser. Il y a tellement de sujets passionnants, de potentialités, d’invitations ! Il est assez facile de se retrouver en surcharge (surtout que généralement les engagements qu’on prend ne se concrétisent que plusieurs mois après). L’an dernier, j’avais donc décidé de concentrer mon effort sur deux pôles principaux : les archives du web d’une part, et l’intelligence artificielle dans les institutions patrimoniales d’autre part. Et cette décision a porté ses fruits !

Du côté des archives web, nous avons démarré deux projets de recherche jumeaux sur les skyblogs : Skybox et SkyTaste. Le premier est financé par la BnF dans le cadre de son plan quadriennal de la recherche, et le second par l’Université PSL via le dispositif Young Researcher Starting Grant (pour celles et ceux qui se demandent, les « jeunes » chercheurs et chercheuses sont des personnes qui ont soutenu leur thèse depuis moins de 7 ans et sont arrivées à PSL depuis moins de 2 ans, donc j’étais parfaitement dans les clous !) Les skyblogs seront donc, pour les 3 prochaines années, mon principal point d’entrée dans les archives web, notamment à travers l’encadrement de travaux étudiants comme celui d’Alice Guérin. Ce qui va me conduire à faire quelques infidélités à ce blog, puisque nous avons prévu de publier, avec les autres membres du projet, une série de billets mensuels sur le blog Webcorpora de la BnF.

Par ailleurs, je n’écarte pas complètement de mon périmètre d’autres objets connexes de l’histoire du web et du patrimoine numérique. En 2024, j’ai commencé mon premier co-encadrement de thèse avec Christophe Gauthier : il s’agit de la thèse de Christophe Carini-Siguret sur l’artification du jeu vidéo. La question du patrimoine vidéoludique gardera donc un poids important dans mes préoccupations ces prochaines années : cela se concrétise dès 2025 avec un colloque qui aura lieu à l’ENS et à l’ENC les 13 et 14 mai.

Du côté de l’intelligence artificielle, j’ai passé la main en tant que présidente d’AI4LAM, ce qui m’a permis de m’impliquer davantage d’une part dans le chapitre francophone, d’autre part dans le groupe de travail « Teaching and Learning ». Mais surtout, je pilote un autre projet financé cette fois par le Ministère de la culture à travers son appel FTNC : TORNE-H, porté par le Musée des Arts Déco et dont la chercheuse principale est Marion Charpier. L’objectif de cette recherche est de démontrer la valeur ajoutée des méthodes de computer vision pour analyser des collections muséales non décrites et d’étudier l’impact de l’intégration de l’IA dans les processus de travail du musée. Cela m’a aussi donné l’occasion de m’impliquer dans le consortium Huma-Num PictorIA, dont l’École des chartes est partenaire.

On est d’accord que tout ceci ne représente que 40 à 50% de mon temps de travail en moyenne, donc vous comprenez pourquoi il faut se mettre des limites…

Conférences, journées d’études, colloques…

L’année 2024 a de nouveau été bien riche en événements, avec pour commencer une série de conférences plus ou moins « grand public » sur l’intelligence artificielle dans les institutions patrimoniales. Cette thématique est liée à mon implication dans AI4LAM et pas vraiment à mon activité de recherche au sens strict mais notons-les ici quand même…

Le 1er février, j’ai participé à la journée d’études « Ce que l’Intelligence Artificielle change à l’Université » organisée par la BU de Nantes et la chaire UNESCO RELIA. J’y ai donné une conférence introductive que vous pouvez revoir ici et j’ai contribué à faciliter un atelier conçu par Jean-Philippe Moreux sur la computer vision (support ici).
Le 2 mai, j’ai été invitée par les bibliothèques de la ville de Paris à participer au festival Numok pour parler de l’IA en bibliothèque. La captation est disponible ici.
Le 1er juillet, j’ai été invitée à participer aux « journée réseau » du SCD de l’université de Toulouse, un événement interne pour lequel j’ai proposé une conférence intitulée « Comment l’intelligence artificielle transforme la recherche documentaire ». Une répétition pour…
… le 6 novembre, à Bordeaux, dans le cadre de la journée d’études « L’intelligence artificielle dans les espaces documentaires et bibliothéconomiques » organisée par l’INSPE de Bordeaux. La thématique était la même : « Comment l’intelligence artificielle transforme la recherche documentaire ». Mon support de présentation est accessible sur le site de la journée.
enfin le 9 décembre, j’ai donné une conférence à l’ENC dans le cadre du cycle « Chartistes à l’œuvre » sur le thème « Intelligence artificielle et institutions patrimoniales » (captation vidéo).

Cette liste vous fournit plusieurs captations généralistes sur l’IA dans les institutions patrimoniales : j’ai donc décidé de ne plus accepter d’intervenir sur ce thème (parce qu’à partir d’un certain moment, ce n’est plus des conférences, c’est du théâtre…) pour me concentrer sur des approches plus spécifiques liées à TORNE-H en particulier.

Ainsi, d’autres événements ont donné lieu à des communications, soit dans le cadre d’AI4LAM, soit du projet TORNE-H, soit enfin dans le cadre du consortium Huma-Num PictorIA récemment créé (et parfois un peu des trois). Parmi ceux-ci :

Le 24 janvier, nous avons présenté avec Marion Charpier une conférence intitulée « Using IIIF as an education tool in AI/ML for DH students » dans le cadre du groupe IIIF AI/ML qui joint les communautés AI4LAM et IIIF.
Le 3 juin, le chapitre francophone AI4LAM a organisé une rencontre régionale à Strasbourg en partenariat avec la BNUS, sur le thème « Intelligence artificielle, patrimoine et humanités numériques ». J’y suis intervenue à deux voix avec Elsa Van Kote pour une présentation intitulée « Du master TNAH au réseau des MSH. Formation et services à la recherche autour de l’intelligence artificielle pour les humanités numériques » (compte-rendu et captation de la journée).
Le 26 juin, avec Marion, nous avons animé un atelier PictorIA d’initiation à IIIF.
Enfin le 7 novembre, j’étais à DH Nord ; la conférence portait cette année sur « Prospective et nouvelles perspectives en humanités numériques » et j’y ai présenté une intervention intitulée « Intelligence artificielle : enjeux et perspectives pour les institutions patrimoniales » (très original).

En plus de tout ça, il y a un événement un peu à part, car il va donner lieu à une publication : il s’agit des journées doctorales organisées conjointement par le Centre Jean-Mabillon et l’Université de Wuhan à l’École des chartes, les 19 et 20 septembre, sur le thème « Cultural Heritage and Digital Humanities ». En plus, j’y ai contribué à deux communications : la première avec Alexandre Faye sur le thème « Archiving the vernacular web: the example of skyblogs« , et la deuxième avec Marion Charpier intitulée “TORNE-H, an AI-based data processing worfklow for photographic collections”.

Je voudrais enfin faire une place à part aux deux grandes conférences internationales auxquelles j’ai participé cette année :

la WAC (Web archiving conference) se tenait cette année à la BnF, du 24 au 26 avril. Un grand merci à mes ancien.ne.s collègues qui m’ont ainsi donné l’occasion de renouer avec la communauté IIPC qui travaille sur les archives du web. J’y ai animé la table-ronde d’ouverture, qui portait sur les skyblogs : « Here Ya Free! Crossed Views on Skyblog, the French Pioneer of Digital Social Networks« . La captation est à revoir à tout prix, c’était génial ! Avec ma collègue Valérie Schafer, nous avons aussi profité de cet événement pour organiser pendant les jours précédents une école de printemps pour les jeunes chercheurs et chercheuses sur les archives web (Early Scholars Spring School on Web Archives), un événement que nous avons prévu de répéter à l’avenir.
La conférence annuelle d’AI4LAM, Fantastic Futures 2024, a eu lieu à Canberra en Australie (voir mon compte-rendu). Mon intervention, préparée conjointement avec Marion Charpier et Jean-Philippe Moreux, s’intitulait « Computer vision in the museum: perspectives at the MAD Paris » (captation).

Publications

Du côté des publications, l’événement de l’année c’était bien sûr le livre De l’écran à l’émotion, paru en juin 2024 aux éditions de l’École des chartes. Pas mal de choses se sont passées en périphérie de cette actualité éditoriale. Grâce à la complicité de Mélanie Leroy-Terquem, j’ai organisé le 2 octobre une présentation du livre à la BnF. J’ai aussi été interviewée dans Archimag et j’ai publié un article de vulgarisation dans The Conversation France.

Sinon, les actes du colloque RESAW de 2023 sont parus (Exploring the Archived Web during a Highly Transformative Age, sous la direction de Sophie Gebeil et Jean-Christophe Peyssard). Ils contiennent un article co-écrit avec Sara Aubry, Audrey Baneyx, Laurence Favier, Alexandre Faye, Marie-Madeleine Géroudet et Benjamin Ooghe-Tabanou : « A Network to develop the use of web archives: Three outcomes of the ResPaDon project« .

Un autre article collectif a été accueilli dans la revue Culture et Recherche sur recherche et intelligence artificielle paru cette année (n°147, automne-hiver 2024) au titre du chapitre francophone d’AI4LAM.

Pour finir, j’ai pulvérisé mon magnifique score de nombre de billets sur le blog (on était à 3 l’an dernier, on passe à 4 !!!) mais je ne citerai ici que celui qui contient du contenu original (hors compte-rendu de conférences) : « Le futur de la recherche documentaire : RAG time ! » S’y ajoute le billet sur le blog WebCorpora concernant les projets Skybox et SkyTaste. On va remettre le blogging à la mode ;-)

Activités diverses

S’il fallait vraiment lister TOUT ce que je fais au titre de la recherche… On pourrait ajouter la relecture d’articles en « peer-review » (pour la revue Humanités Numériques notamment), l’évaluation de projets de recherche (pour BELSPO), la participation à des comités scientifiques qui préparent les programmes et évaluent les réponses aux appels à contributions (Document numérique et société, WAC 2025, RESAW 2025), la participation au conseil scientifique d’Huma-Num et au comité d’orientation de l’Equipex Commons. Nous avons aussi passé pas mal de temps, avec Laurence Favier, Madeleine Géroudet et d’autres contributeurs et contributrices, à fignoler les actes du colloque ResPaDon, publiés en ce début d’année dans la revue LCN (mais ça comptera dans les publications de 2025 !)

Il faudrait aussi mentionner les directions de mémoire de master, qui ont inclus cette année en M1 les travaux d’Alice Guérin, de Sarah Ambec et de Juliette Benguigui, et les mémoires de M2 de Natacha Grim, Mohammed Mechentel, Kutay Sefil, Camille Ferrari, Elliot Fabert, Mathilde Prades, et Selma Bensidhoum (ce dernier en co-direction avec Émeline Levasseur). Merci à elles et à eux, et félicitations !

Pour finir sur une note moins boris-viannesque, je voudrais mentionner une dernière activité inclassable : une résidence que j’ai effectuée au sein du laboratoire C2DH de l’Université du Luxembourg, du 29 au 31 mai 2024, dans le cadre du dispositif Erasmus+ (oui ça existe aussi pour les profs !) C’était vraiment une expérience très chouette, j’ai appris beaucoup de choses et suis repartie avec plein d’idées pour mes projets. Un grand merci à Valérie Schafer, Frédéric Clavert et Benoît Majerus pour leur accueil !

Les futurs fantastiques la tête en bas (édition 2024)

Publié le 29/10/2024 par manuefig

Dans la pénombre de la salle de cinéma de la National Film and Sound Archive (NFSA), dans une lumière oscillant entre le bleu Klein et un vert électrique qui fait surgir les reflets de bas-reliefs animaliers, une dame âgée monte sur l’estrade. L’écran derrière elle nous apprend qu’il s’agit d’Aunty Violet Sheridan, ancienne des Ngunnawal, et qu’elle est là pour nous accueillir. Ce message de bienvenue a vocation à protéger notre âme car, nous explique-t-elle, il ne nous viendrait jamais à l’idée d’entrer chez quelqu’un sans y être invité. La puissance de son message me fait encore frissonner. Une main tendue, certes, mais sans oublier la douleur d’une histoire dont nous héritons ensemble, et accompagnée d’un message d’espoir pour le futur, qui a aussi un goût d’avertissement, alors que l’Australie vient de célébrer le (triste) anniversaire du référendum concernant le « Indigenous voice to parliament« . Aucun.e australien.ne ne montera sur cette même estrade pendant ces deux jours sans saluer le peuple ngunnawal et les autres peuples aborigènes, reconnaître leur propriété des terres « où nous vivons et travaillons », et présenter ses respects à leurs aînés.

*Welcome by Aunty Violet Sheridan, Senior Ngunnawal Elder*

En débutant ainsi ce billet, je veux moi aussi adresser ma reconnaissance à Aunty Violet pour son accueil et aux peuples aborigènes des différentes terres que j’ai foulées. En tant qu’européenne, une des rares à avoir participé à cette édition australe de la conférence annuelle d’AI4LAM, j’ai vécu cet enjeu comme la secousse la plus importante, la plus riche en apprentissage de mon passage « down under« . L’intensité de ce qui se joue ici est difficilement perceptible sans faire le voyage, car comme l’évoquaient les collègues du projet IReal, le respect ne fait pas bon ménage avec l’urgence, et trouver un autre rapport culturel au temps et à l’espace implique de ralentir. Faire plus de vingt heures d’avion pour arriver à l’autre bout de la planète était une façon de me confronter à cette lenteur ; de renoncer à l’immédiateté permise par le numérique et la visioconférence et d’en faire l’expérience corporelle. La question de « comment on hérite » du passé colonial, en tant que personne mais aussi en tant qu’agent des institutions patrimoniales européennes, a été traversante pendant ces quelques jours, et je suis toujours à la recherche de mon douzième chameau*. C’est donc tout naturellement que je traiterai les « questions indigènes » (indigenous matters) en premier dans ma synthèse, avant d’aborder des thématiques plus classiques dans le paysage de l’intelligence artificielle.

« Data is land »

Cet aphorisme est revenu à plusieurs reprise ponctuer des conversations et présentations axées sur les enjeux de l’IA en lien avec les communautés indigènes en Australie et en Aotearoa-Nouvelle-Zélande. « Data is land« , c’est l’idée qu’il faut rendre aux communautés indigènes la gouvernance et la souveraineté sur leurs données, une approche qui pose problème pour des nations qui n’ont pas d’existence en tant qu’États et dont la culture emprunte d’autres voies que celles qui sont protégées par les lois occidentales. J’ai ainsi découvert le terme « ICIP » (Indigenous Cultural & Intellectual Property) : au-delà de notre bon vieux droit d’auteur moral et patrimonial, il s’agit de se pencher sur la question du respect du sacré, de la transmission générationnelle des savoirs et des cultures, de l’appartenance de ce patrimoine à la communauté de manière collective. Derrière ces concepts, l’idée clef est que ces communautés devraient avoir le contrôle sur la façon dont leur culture et les données afférentes sont utilisées, la possibilité de créer et gérer leurs propres archives, et la capacité à construire sur cette base des modèles de connaissance mais aussi des modèles économiques.

Ce dernier point est particulièrement important dans un contexte où, comme nous l’a rappelé Peter-Lucas Jones, la majorité des personnes incarcérées en Nouvelle-Zélande sont d’origine aborigène, et où cette forme de réparation vise des personnes qui ont été privées de leurs terres et de leurs ressources, vivant souvent dans une extrême pauvreté (je tiens de ma collègue canadienne assise à côté de moi que la situation est comparable pour les premières nations des Amériques). Dans ce contexte, l’éducation à l’IA (AI literacy) en direction de ces populations est d’autant plus cruciale, en termes d’égalité des chances notamment pour celles et ceux qui entrent à l’université.

Derrière ces principes, les actions concrètes incluent par exemple le recensement des données en lien avec les communautés indigènes dans les archives de l’ANU (Australia National University) pour permettre à ces communautés d’identifier les matériaux qui les concernent, la mise en place de partenariats avec les « big tech companies » (Microsoft et Amazon AWS) pour pallier l’absence de datacenters sur le territoire de la Nouvelle-Zélande, la mise en place d’actions de communication et de formation, l’adoption des principes CARE en plus des principes FAIR, ou encore la création de modèles d’IA adaptés aux langues à faibles ressources de ces communautés. Face à tous ces enjeux, les institutions patrimoniales sont vues comme des alliées… mais sans oublier que leurs collections se sont longtemps construites par la prédation d’objets venus d’autres cultures et de communautés qui se sont trouvées dépossédées de leur patrimoine (Peter-Lucas Jones a employé le terme très fort de « scavenging » ).

« Langage is culture »

« … and speech-to-text is invasion. » Je cite de nouveau Peter-Lucas Jones qui a un sacré sens de la formule ;-)

L’oralité tient en effet une place considérable dans les cultures locales, comme en témoigne l’existence d’un studio d’histoire orale au sein de la NLA (National Library of Australia) qui détient plus de 60.000 heures d’enregistrements et missionne 80 interviewers pour poursuivre ce travail. Cette collecte est considérée, au même titre que le dépôt légal des livres ou du web, comme une façon de faire entrer la culture australienne dans les collections. Les archives audiovisuelles tiennent aussi une place importante aux archives nationales d’Australie (NAA) et bien sûr, elles sont au cœur de l’activité de la NFSA. Rien d’étonnant, donc, à ce que l’un des usages de l’IA les plus mis en lumière à l’occasion de cette édition des « Futurs Fantastiques » ait été le speech-to-text.

Là aussi, le déplacement vers les contrées du Pacifique permet d’apporter une perspective différente. Kathy Reid nous a ainsi montré les variations importantes dans l’analyse des différents accents anglais par Whisper, le modèle ouvert d’OpenAI qui domine actuellement le marché et a été entraîné sur 680.000 heures de contenus issus d’Internet. Les écossais sont ceux dont l’accent est le moins bien reconnu, tandis que les australiens sont obligés d’imiter l’accent américain quand ils parlent à leur téléphone pour être compris ! La NFSA nous a montré, de son côté, comment elle apprenait à Whisper à parler l’australien, en générant d’abord des histoires truffées d’argot et de noms de lieux spécifiques, avant de les faire lire à haute voix par des locuteurs nationaux, de générer des transcriptions qui sont ensuite corrigées, et enfin utilisées pour entraîner le modèle. On retiendra que c’est une méthode sacrément « bikkie » (« bikkie » est l’argot australien pour « biscuit » mais pour une raison inconnue, l’IA générative semblait penser que ça voulait dire « génial » ;-)

*Architecture d’industrialisation du speech-to-text à la NFSA*

Dans ce contexte, et plus encore s’agissant des langues indigènes qui n’étaient pas faites à l’origine pour être mises par écrit, l’enjeu des technologies IA qui traitent de la langue est important. Des benchmarks comme le Flores paper permettent d’évaluer le traitement des différentes langues, notamment celles qui sont considérées comme « à faibles ressources ». Mais la façon dont sont traitées les langues indigènes n’est pas toujours considérée par les personnes concernées comme satisfaisante (traductions approximatives, locuteurs non natifs…) et là aussi, l’enjeu est de leur permettre de reprendre la main sur leur langue et la façon dont elle est outillée avec l’IA. C’est une véritable « guerre des tokens » (l’expression est de Kathy Reid) qui s’annonce et dans laquelle la mise en place de politiques et de benchmarks jouera un rôle important.

L’an 2 après Kraken

Il arrive parfois que les conférences génèrent des gimmicks, des expressions heureuses qui percutent et s’installent, reprises d’un.e intervenant.e à l’autre. Celle-ci était particulièrement riche en la matière : quelqu’un a rappelé le tournant qu’a été la présentation au public de ChatGPT fin 2022, quelqu’un d’autre a évoqué cet événement comme étant l’avènement du « kraken » et à partir de là, tout le monde s’est mis à positionner ses projets en fonction d’une frontière temporelle symbolique : before or after Kraken.

Deux ans après Kraken, donc, la conférence est marquée par ces grands modèles qui se sont fait une place prépondérante dans le paysage. J’ai déjà parlé de Whisper, mais outre GPT-2, 3 et 4 (toujours OpenAI), il y a aussi LLAMA (de Facebook) et Mistral côté LLM, et dans le domaine de la vision artificielle, CLIP (toujours d’OpenAI) est revenu à plusieurs reprises ainsi que Florence-2 (de Microsoft).

*Le « moment Transformers » vu par Lindsay King et Peter Leonard de Stanford*

Dans ce contexte, le cas d’usage que j’appellerais « anything-to-text » se précise. Qu’il s’agisse d’audio, de vidéo, d’images, d’écriture imprimée ou manuscrite, on a pu voir les exemples se multiplier, l’enjeu étant le passage à l’échelle ou l’industrialisation. En vrac :

la NFSA a créé Bowerbird, un moteur capable d’extraire le texte de contenu vidéo, associé à une interface de gestion des transcriptions (il a fallu 50 jours de traitement pour produire une première version transcrite de la totalité de la collection : 20 années linéaires de contenu)
L’Université de Stanford a expérimenté la mise en place d’archives conversationnelles multimodales, utilisant le RAG et les intelligences artificielles génératives pour interroger des collections de photos et des archives concernant l’histoire de la Sillicon Valley
la British Library travaille à l’industrialisation de ses workflows d’HTR, en travaillant notamment sur les écritures non latines,
la Queensland Art Gallery a développé une application mobile permettant d’afficher les métadonnées d’un tableau en l’identifiant par similarité, l’entraînement du modèle étant intégré à l’application qui gère la sécurité des œuvres exposées
le studio Kopi Su à Sydney propose à des musiciens d’expérimenter avec des systèmes d’IA générative musicale qui passent par le texte et l’image pour générer des sons
le Los Alamos National Laboratory a testé l’amélioration des données d’autorité avec des LLM
etc.

L’importance d’évaluer

Face à tous ces cas d’usages, un enjeu se fait particulièrement sentir cette année : celui de l’évaluation des résultats fournis par l’IA. Avec pour point de départ le workshop de la Library of Congress sur son AI planning framework (qui nous avait déjà été présenté plus rapidement l’an dernier), une question à se poser en amont est de savoir à quoi ressemblerait le succès quand on entreprend un projet IA. L’enquête présentée par Emily Pugh du Getty, par exemple, avait pour objectif de remonter aux sources des pratiques des historiens de l’art afin de comprendre comment les métadonnées générées par IA pourraient leur rendre service.

En aval, la construction de protocoles permettant de tester différents modèles et d’évaluer la qualité des résultats qu’ils produisent est actuellement une activité prépondérante dans la communauté**. C’était d’ailleurs l’objet de ma propre présentation, dans laquelle j’ai résumé les travaux conduits au Musée des Arts Déco par Marion Charpier, avec la contribution de Natacha Grim (TNAH power !) – je remercie aussi Jean-Philippe Moreux et Bénédicte Gady, respectivement expert et sponsor du projet, et si vous souhaitez en savoir plus, je vous renvoie à la présentation faite par Marion lors du dernier webinaire du chapitre francophone d’AI4LAM.

Je retiendrai en complément trois présentations particulièrement marquantes, qui ont abordé cette question de l’évaluation des résultats de l’IA.

En Norvège, le projet Mimir avait pour objectif de répondre à une question du gouvernement portant sur l’apport des œuvres protégées par le droit d’auteur à la qualité des réponses fournies par les LLM, lorsque ceux-ci sont entraînés à partir de telles œuvres. Pour cela, la National Library of Norway a mis au point un jeu de données permettant de différencier très finement plusieurs types de corpus (œuvres libres de droits, fiction et non-fiction, journaux…) de façon à identifier lesquels présentent l’apport le plus significatif pour entraîner un LLM à effectuer un certain nombre de tâches en matière de langage. L’évaluation a permis de montrer que les œuvres sous droit améliorent de façon certaine les résultats, mais que l’inclusion de corpus de fiction dans l’entraînement peut au contraire avoir un effet de détérioration de la qualité.

Javier de la Rosa présente le projet Mimir

À l’Université d’Indiana aux USA, c’est le speech-to-text qu’il s’agissait d’évaluer, et en particulier les performances de différentes versions de Whisper, dans le contexte particulier des Etats-Unis où une loi oblige désormais les institutions à rendre accessibles les contenus audiovisuels en fournissant des transcriptions. Ici, l’enjeu était de tester l’extraction de texte sur une grande diversité de supports et de types de contenus, de manière à déterminer une approche générique.

Enfin la NLA a également procédé à des tests, cette fois dans le domaine de la vision artificielle, l’objectif étant d’améliorer la découvrabilité des images dans Trove (équivalent australien de notre Gallica). Leur approche consiste à générer des descriptions des images avec un LLM de façon à permettre une recherche par mot-clefs, pas seulement sur des éléments iconographiques (ce que représente l’image) mais aussi des concepts comme des styles architecturaux, des ambiances, des émotions. Les descriptions générées permettent aussi de rapprocher des images qui se ressemblent (recherche par similarité et clustering) non pas en rapprochant directement les images, mais plutôt les textes générés. Pour cela, ces derniers sont transformés en vecteurs et injectés dans le moteur SolR qui sert d’outil d’accès. Trois modèles ont été comparés grâce à un protocole comprenant des questions types et une interface développée ad hoc (un peu façon Compar:IA) : CLIP et GPT-4 vision d’OpenAI, et Phi-3.5 vision de Microsoft.

*Francis Crimmins présente les résultats de l’évaluation des modèles de vision artificielle à la NLA*

Pour finir ces considérations sur l’évaluation, je voudrais mentionner l’enquête sur l’intégration des enrichissements de métadonnées (IA ou crowdsourcing) dans les bases de données de collections, réalisée par les partenaires du projet Collective Wisdom. Loin de dresser un paysage catastrophique, l’enquête révèle que la majorité des répondants sont parvenus, d’une manière ou d’une autre, à réinjecter les métadonnées enrichies dans leurs systèmes, la plupart du temps après une forme de contrôle qualité. Le principal obstacle en la matière réside moins dans les limitations techniques des formats et des systèmes (même si MARC a été mentionné !) que dans l’accord des parties prenantes sur la notion de qualité attendue de ces enrichissements.

Perspectives spatio-temporelles

Pour conclure, l’apport de la conférence de cette année résidait pour une part dans sa localisation originale, qui a apporté des perspectives nouvelles sur des enjeux de décolonisation, cruciaux dès lors qu’on s’intéresse à ces technologies et d’une façon plus générale, aux questions patrimoniales. Par ailleurs, la succession des conférences « futurs fantastiques » fournit une vision diachronique passionnante quant à l’intégration des questions d’IA dans les bibliothèques, les archives et les musées. Elle fait apparaître un effet de balancier, alternant les moments où la communauté expérimente tous azimuts et ceux où elle se met en quête de stabilisation et d’intégration des acquis dans ses processus et ses données. Cette année, le balancier penche de ce 2e côté et fournit de nombreuses inspirations pour qui veut conduire un projet d’IA en institution patrimoniale, en utilisant les modèles désormais disponibles.

*Fin de journée dans la cour de la NFSA*

Un grand merci aux organisateurs et organisatrices de cette très belle édition ! En attendant de revoir la conférence en vidéo, vous pouvez consulter les résumés des interventions sur la page du programme. Et sinon, rendez-vous l’an prochain à Londres pour de nouvelles aventures ! D’ici là, les webinaires mensuels de la communauté internationale sont ouverts à tous et toutes, ainsi que les réunions du chapitre francophone toutes les 6 semaines (la prochaine devrait avoir lieu le 19/11). Rejoignez-nous !

*Le douzième chameau fait référence à une fable citée par Vinciane Despret et Isabelle Stengers dans leur livre Les faiseuses d’histoires : que font les femmes à la pensée ? (La Découverte, 2011), dont je ne peux que recommander la lecture à toutes les femmes engagées dans des carrières universitaires.

**Cela me donne l’occasion de saluer l’actualité du projet Compar:IA, qui vient de voir le jour en France ! Et qui devrait d’ailleurs être à l’ordre du jour de la prochaine réunion du chapitre francophone d’AI4LAM.

De l’écran à l’émotion (et du concept au papier)

Publié le 21/06/2024 par manuefig

De l’écran à l’émotion, c’est le titre de mon livre qui est sorti hier aux éditions de l’École des chartes. Je ne vous dirai rien ici de ce qu’il y a dedans (pour ça, vous pouvez consulter le résumé et le sommaire ici), j’ai plutôt envie de vous raconter comment il est né… en laissant place aux émotions, forcément !

Tout a commencé autour d’un déjeuner rue de Richelieu avec Christophe Gauthier, alors qu’on préparait une table-ronde dans un colloque. Il m’a parlé du doctorat sur travaux et je me suis dit « pourquoi pas ». La recherche était déjà faite : j’avais derrière moi 15 ans de publications, de conférences, de projets, d’expérimentations et de très riches discussions avec d’innombrables personnes ressources. Il ne restait donc « plus qu’à » remettre tout cela en cohérence, l’articuler autour d’une problématique, faire du lien et un peu d’égo-histoire, bref… écrire. Et par chance, c’est une activité à laquelle je prends un plaisir tout particulier, une passion que je nourris depuis 2004 et la naissance de ce blog (et même avant pour être honnête).

Je m’y suis lancée une première fois en 2019. L’exercice était assez contraint, il fallait impérativement tenir en 100 pages max et répondre aux exigences de l’écriture académique, tout en faisant le lien avec ce que j’avais publié auparavant et en introduisant une problématique globale. Cela a débouché sur ma thèse, soutenue en janvier 2020 et désormais accessible en open access.

Assez rapidement, il a été question d’une publication. Mais il a fallu attendre 2022 pour que je puisse trouver la disponibilité (pratique mais surtout mentale) de me lancer dans ce nouveau projet.

J’en ai discuté avec Géraldine Hue, qui dirige les éditions de l’École des chartes. Elle venait de lancer une nouvelle collection, adaptée pour des textes moins lourds que des thèses. J’avais envie d’un essai, quelque chose de personnel et vivant qui se lise comme un roman. Les planètes étaient alignées. Je pouvais donc me remettre à écrire, ce qui a occupé une bonne partie de mon année 2023.

Mais alors, écrire un livre, ça fait quoi ?

Eh bien pour moi, écrire c’est…

… trouver un concept auquel on croit et s’accrocher jusqu’au bout pour qu’il voie le jour ;
… 6 mois à un an de travail acharné dans chaque interstice qu’on parvient à libérer dans son agenda ;
… lutter pour trouver le ton juste en fonction de l’audience qu’on vise ;
… disposer d’une première version et décider quand même de tout réécrire parce que l’intention n’est pas exactement la même ;
… se prendre la tête pour respecter des contraintes d’écriture qu’on s’est soi-même fixées et que personne ne remarquera jamais ;
… se réveiller le matin avec une idée lumineuse et s’émerveiller des bonnes pages qu’elle fait apparaître ;
… s’arracher les cheveux pendant des heures sur des chapitres pénibles pour finir par tout couper à la relecture ^^
… relire. Relire. Relire. Relire. Relire. Relire. Relire jusqu’à ne plus pouvoir voir le texte en peinture ;
… attendre des mois, recevoir enfin le livre, ne pas oser l’ouvrir de peur de voir une coquille >_<
… 25 échanges avec l’éditeur pour choisir la couverture parfaite (vous noterez le petit cœur sur le dos <3)

Mais écrire un livre c’est aussi… le voir partir vers l’inconnu en se demandant ce qu’il adviendra de lui, ce que les gens vont en penser, si tout ces efforts ont servi à quelque chose, s’il est vraiment pas mal, si quelqu’un le lira.

Alors si c’est votre cas, si vous en lisez même un chapitre, même juste l’intro, même 10 lignes, n’hésitez pas à passer ici (ou ailleurs) me dire ce que vous en avez pensé ! (Vous pouvez aussi juste dire qu’il est beau, parce que c’est vrai :-D)

En plus de toutes les personnes déjà mentionnées dans les remerciements de l’ouvrage, je voudrais adresser toute ma gratitude à Géraldine Hue et Sophie Muraccioli et plus généralement aux éditions de l’ENC, pour avoir mis au jour la première monographie signée par et rien que par Emmanuelle Bermès ! Je suis heureuse et fière comme une jeune maman devant son premier bébé :’-D

Le futur de la recherche documentaire : RAG time !

Publié le 30/03/2024 par manuefig

Aujourd’hui, je vous parle d’une application de l’intelligence artificielle et plus spécifiquement, des modèles de langues et de l’IA générative, qui est en train de prendre pas mal d’essor en ce moment : le RAG (Retrieval Augmented Generation). Vous n’en avez jamais entendu parler ? Restez branchés, car le RAG pourrait bien rentrer rapidement dans la boîte à outil courante du professionnel de l’information, juste à côté des catalogues, des ressources électroniques et des moteurs de recherche.

Un peu d’historique et de contexte (on ne se refait pas)

Voilà plusieurs années maintenant qu’on me demande régulièrement d’intervenir pour parler de ce que l’IA change ou va changer dans les bibliothèques. Après avoir étudié tous les use-case possibles et imaginables, j’ai développé un savant exercice d’équilibriste à base de « on va pouvoir continuer à faire ce qu’on fait, mais plus efficacement » ou encore « c’est surtout la masse de ce qu’on peut traiter qui change ». Depuis plusieurs années, j’avais vu débarquer les grands modèles de langue (LLM), en particulier BERT et ses petits amis (CamemBERT, FlauBERT etc.) mais globalement, leur utilisation se passait dans la soute, dans des profondeurs techniques difficiles à expliquer à des publics non-avertis. Cela faisait partie de ces outils « invisibles » qui améliorent les données et les services qu’elles rendent, mais sans faire de bruit.

En novembre 2022, quand ChatGPT a débarqué et a démontré sa capacité à masteriser le test de Turing, j’ai été assez rapidement convaincue qu’une fois le phénomène de mode passé, cet outil (et ses petits frères LLM) aurait surtout un impact quand il s’intègrerait discrètement dans nos applications du quotidien : nos gestionnaires de mail (pour répondre plus vite et envoyer encore plus de mails :-/), nos traitements de texte (pour trouver le bon mot à notre place) et… nos moteurs de recherche (dont il reformulerait à la fois les réponses et les questions, en langage naturel).

Le graal du « langage naturel » dans la recherche documentaire est en effet un idéal après lequel on court depuis bien des années. L’enjeu est de se débarrasser des mots-clefs, méthodes de requêtage et autres trucs de professionnels de l’information, pour pouvoir simplement demander les choses à son moteur de recherche préféré comme on le ferait à un humain, en lui posant des questions. La recherche plein texte à la Google ne répond qu’imparfaitement à ce cas d’usage : on peut en effet formuler des questions, il répondra bien quelque chose, mais le lien entre les deux n’est pas garanti.

Comme nous autres bibliothécaires, Google a commencé par tenter de s’appuyer sur les métadonnées pour pouvoir répondre de manière pertinente à au moins certaines questions, avec le « knowledge graph ». Ce qui donne par exemple ceci :

Encore plus récemment, on a vu apparaître autre chose dans la liste de résultats de Google. Dans la copie d’écran ci-dessous, prise à partir de la même question et toujours sur la 1e page de résultats, vous avez à droite le knowledge graph et à gauche, une liste de questions avec leurs réponses (que l’on peut dérouler en cliquant sur la flèche) :

Il suffit de regarder attentivement les questions et les réponses pour deviner que Google utilise ici les ingrédients de sa bonne vieille recette qui marche : analyser les questions que posent souvent les internautes, les réponses qui leur plaisent le plus, et chercher les chaînes de caractère textuelles qui correspondent. Rien de neuf : on sait depuis longtemps que pour améliorer son référencement, il faut formuler le titre de ses pages/billets/vidéos sous forme de question en essayant d’imaginer ce que les internautes se demandent (vraiment, j’avais capté ça en 2004, ce qui a fait de ce billet mon best-seller de tous les temps).

Ce qui change vraiment, c’est la place importante que Google réserve désormais à ce bloc question-réponse sur sa page de résultats, quelle que soit la requête (même si ce n’est pas une question). On peut donc s’aventurer à le prédire : dès qu’on aura réussi à empêcher les LLM de trop halluciner, les modalités de la recherche documentaire vont profondément changer, et laisseront beaucoup plus de place aux questions-réponses et aux échanges en langage naturel.

Je ne m’appesantirai pas ici sur les tests en cours dans ce domaine du côté des grands moteurs de recherche du web, qu’il s’agisse de Google ex-Bard désormais Gemini ou du Copilot de Bing basé sur ChatGPT. Ce qui m’intéresse aujourd’hui, c’est de vous parler de l’un des impacts de cette évolution sur la recherche documentaire en bibliothèque (ou archives), à travers le RAG.

Qu’est-ce que le RAG et à quoi peut-il servir ?

(Ce titre de niveau H2 est cadeau pour le référencement.)

RAG signifie donc Retrieval Augmented Generation ; en français, on parle de « génération augmentée de récupération ».

Un RAG permet à une intelligence artificielle générative conversationnelle (comme ChatGPT) d’interagir avec un corpus délimité. Celui-ci peut correspondre à un ensemble de documents, un fonds d’archives ou même à un seul document. On peut dès lors poser des questions visant à résumer tout ou partie du corpus ou du document, à vérifier la présence de tel ou tel concept et savoir comment il est traité, ou encore à répondre à des questions précises en se basant sur l’information présente dans le corpus. Bonus non négligeable, grâce au RAG, l’outil est en principe capable de citer ses sources c’est à dire de lister précisément les documents du corpus sur lesquels il s’est basé pour répondre, voire de fournir des extraits et des citations.

Imaginez par exemple que vous tombez sur un article de 50 pages potentiellement intéressant, mais vous n’avez pas le temps de le lire. Vous pourriez alors demander à un agent conversationnel, grâce à votre RAG, de vous le résumer paragraphe par paragraphe, d’en extraire les thématiques principales, de vérifier s’il contient l’idée que vous cherchez ou la réponse à votre question, d’aller droit aux résultats de la recherche qui y est présentée… C’est le cas d’usage qu’a imaginé JSTOR pour son outil AI research tool (beta) :

Les RAG semblent être apparus en 2020 dans l’environnement de Meta. Pour ma part, je les ai découverts (notamment à travers l’exemple de JSTOR) à la conférence AI4LAM de Vancouver en novembre dernier ; néanmoins je ne crois pas que le terme de RAG a été utilisé (ou alors il m’a échappé, on en sera quittes pour vérifier dans les captations vidéo qui devraient arriver bientôt). Sur le coup, j’ai trouvé l’idée intéressante mais un peu anecdotique, peut-être parce que la personne qui faisait l’une des démos avait utilisé ses propres archives et posait des questions sur son chien (les exemples, c’est important). Depuis, j’ai vu passer d’autres applications qui ont attiré mon attention et que je détaillerai un peu plus loin (ça c’est pour vous obliger à lire jusqu’au bout mon billet interminable, quel machiavélisme !)

Comment ça marche ?

Je ne vais pas rentrer dans des détails très techniques, ce qui m’intéresse est comme d’habitude de saisir suffisamment les principes généraux pour comprendre les atouts et les limites potentielles de l’outil.

Les grands modèles de langue comme Chat-GPT présentent la particularité de mélanger une fonction linguistique (construire des phrases correctes dans plusieurs langues) et des connaissances, qui s’appuient sur les données d’apprentissage qui leur sont fournies à savoir, globalement, de grands corpus de texte issus du web ou de bibliothèques numériques. Or, le mélange de ces deux fonctions produit le phénomène qu’on a appelé hallucination, c’est-à-dire que lorsque le modèle n’a pas la connaissance nécessaire, il produit quand même du langage et donc raconte n’importe quoi. Essayez par exemple de demander à Chat-GPT de vous générer la bibliographie d’une personne, il vous fournira des références crédibles mais totalement fantaisistes… Par exemple je n’ai rien écrit de tout cela (encore que l’idée d’une co-publication avec Nathalie Clot soit bien trouvée) :

On ne peut pas vraiment lui en vouloir : ChatGPT est un modèle de langue, son rôle est de générer du langage et pas de rechercher des informations.

Le principe du RAG est donc d’augmenter (A) la fonction générative (G) avec une fonction de recherche (R) dans un corpus externe. Pour effectuer cette spécialisation, il existe plusieurs méthodes possibles : entre l’article initial de P. Lewis et al. en 2020 et celui-ci qui, en 2023-24, analyse 100 publications à propos des RAG, le champ de la recherche s’est déjà complexifié de manière importante, notamment suite à l’irruption de ChatGPT en cours de route. Le schéma ci-dessous, emprunté au 2e article, représente la généalogie de l’évolution des RAG pendant cette période :

Technology tree of RAG research. Source : https://arxiv.org/abs/2312.10997

Je recommande également la lecture de cet article pour les personnes qui souhaiteraient des explications techniques claires et illustrées par des schémas sur le fonctionnement de ces différents types de RAG. Je vais essayer de résumer, mais comme le laisse supposer ce joli graphique, le RAG est un domaine de recherche complexe en plein expansion, qu’il serait difficile de saisir en seulement quelques phrases : je vais donc forcément simplifier de façon un peu caricacturale, pardonnez-moi.

Il y a en gros trois méthodes pour améliorer les résultats d’un LLM en maîtrisant davantage la source des connaissances qu’il utilise pour répondre :

le prompt-engineering, qui consiste à agir au niveau du prompt, en y injectant le contenu des références à utiliser pour fournir une réponse correcte et à jour,
le fine-tuning, qui consiste à réentraîner le modèle sur un corpus choisi pour lui apprendre à répondre de manière plus spécifique en fonction d’un domaine ou d’un corpus,
le RAG proprement dit, qui repose sur la séparation de la fonction langagière du LLM et de la base de connaissances qui la sous-tend.

En réalité, selon les types de RAG, on va combiner ces différentes méthodes pour optimiser les résultats obtenus. Par exemple, en injectant des sources de référence dans les prompts, on va permettre au LLM de tracer l’origine des connaissances qu’il utilise pour formuler sa réponse, voire lui donner des éléments pour fournir des réponses plus à jour (la base de connaissance de la version publique de ChatGPT, par exemple, s’arrête en 2021). Par contre, il existe des risques de brouillage entre les connaissances d’origine du modèle et le corpus choisi. Le fine-tuning nécessite de réentraîner le modèle, ce qui peut être assez lourd en terme de calcul et nécessite de disposer de grands corpus de vérité terrain adaptés. En revanche, le fait de séparer le langage des connaissances a l’avantage de permettre de travailler avec des modèles de langue plus légers – c’est ce que nous a expliqué Pierre-Carl Langlais à la dernière réunion du chapitre francophone d’AI4LAM que vous avez manquée malheureusement, mais que vous devriez pouvoir revoir en vidéo bientôt.

Des exemples ?

Si vous voulez en savoir plus sur le principe des RAG, lire des explications un peu plus techniques (mais quand même accessibles) et découvrir un outil que vous pouvez vous-même tester, allez voir du côté de WARC-GPT, un outil open-source développé par le Lab de l’Université de Harvard (présentation – github). Son objectif est de permettre d’explorer des paquets d’archives web au format WARC. Vous allez me dire que si vous ne travaillez pas sur les archives du web, ce n’est pas très intéressant… et pourtant ! Si vous utilisez des ressources accessibles en ligne comme à peu près n’importe qui, il est globalement très facile de les empaqueter en WARC (par exemple avec Conifer ou Archiveweb.page).

Sinon, vous pouvez aussi tester Nicolay, un outil qui expérimente le RAG sur 15 discours d’Abraham Lincoln, représentant environ 300 pages de texte (présentation – démo – github).

Au niveau français, j’ai aperçu des expérimentations à droite ou à gauche, mais je n’ai rien de concluant à vous montrer pour l’instant. Pourtant, si on en croit les très nombreuses références commerciales que l’on peut trouver sur Internet, comme par exemple celle-ci (qui est par ailleurs plutôt bien faite pour qui recherche des explications en français), le RAG est aujourd’hui une technologie bien maîtrisée par l’industrie. Donc si vous avez des exemples sous la main, n’hésitez pas à me les signaler, je les ajouterai à ce billet.

Pour revenir au domaine de la recherche documentaire et des bibliothèques, il me semble que le RAG offre des opportunités d’exploration de grands corpus que je serais surprise de ne pas voir fleurir dans les mois ou années qui viennent. Par ailleurs, si ce genre de méthode doit révolutionner à terme la recherche documentaire et voir nos recherches par mots-clef disparaître au profit de prompts, comme la recherche par équation a disparu au profit de de la recherche plein texte… On a intérêt à comprendre comment elles fonctionnent et à apprendre à les maîtriser. Car le prompting, c’est comme la recherche documentaire : ça pourrait paraître simple à première vue, mais c’est une compétence de la litératie numérique qui ne s’invente pas.

Je vous propose de conclure ce billet en écoutant The entertainer’s Rag (Tony Parenti’s Ragpickers Trio, 1958) sur Gallica. RAG time !

Ce billet a été rédigé à 100% à base d’intelligence humaine.

Edit 15/01/2025 : On y est. Avant-hier, Google Scholar était un moteur de recherche. Aujourd’hui c’est un chatbot.

Recherche : bilan personnel 2023

Publié le 19/01/2024 par manuefig

Quitter la conservation pour aller sur un poste d’enseignant-chercheur, cela implique de consacrer une partie de son temps à la recherche et ses activités connexes : conférences et publications. 2023 a été ma première année complète en la matière ; dans un esprit « science ouverte », voici donc le bilan de mes activités de recherche l’année passée (ça me sera surtout utile quand on me demandera d’en rendre compte :-)

Mes sujets et projets de recherche

Dans la continuité de ma thèse, mon champ de recherche porte sur la patrimonialisation du numérique et plus spécifiquement, le processus qui conduit à l’émergence de nouveaux objets patrimoniaux reflétant la culture numérique, ainsi que l’évolution des institutions patrimoniales en matière de gestion de leurs collections numérisées ou nées-numériques. C’est un sujet qui ouvre pas mal de pistes, et j’ai donc décidé de concentrer mon effort sur deux pôles principaux : les archives du web d’une part, et l’intelligence artificielle dans les institutions patrimoniales d’autre part.

L’année 2023 a ainsi été marquée par la fin du projet ResPaDon, dans lequel je suis restée engagée après mon départ de la BnF, et qui nous a occupés avec l’organisation d’une journée d’étude professionnelle conclusive et du colloque international de fin de projet. J’ai par ailleurs poursuivi mon implication dans AI4LAM où j’ai assuré une deuxième année de co-présidence du secrétariat avec Neil Fitzgerald. Cette deuxième activité m’a valu pas mal d’invitations à divers événements.

Sinon, j’ai passé une bonne partie de l’année à travailler sur le manuscrit d’un livre qui devrait paraître en 2024 aux éditions de l’École des chartes, et qui reprend en partie le mémoire de mon doctorat sur travaux (enrichi, élargi et pas mal réécrit). Ce qui ne m’a pas empêchée d’écrire quand même quelques articles !

Bilan complet ci-dessous.

Conférences, journées d’études, colloques…

L’année 2023 a été riche en événements, au-delà des temps forts qu’ont été les rencontres que j’ai contribué à organiser, à savoir le colloque ResPaDon « Le web : source et archive » en avril à Lille et la conférence annuelle de la communauté AI4LAM à Vancouver. J’ai aussi été impliquée dans les comités scientifiques de la journée d’études des doctorants du Centre Jean-Mabillon et de celle de l’ADEMEC sur l’open data. J’ai eu pas mal d’occasions d’animer ou participer à des tables rondes en lien direct avec mes activités (dans ResPaDon, dans AI4LAM ou encore dans le master TNAH). Mais c’est aussi une année où je me suis autorisée à passer une tête pour le plaisir, virtuellement ou pas, dans des conférences où je n’avais pas de présentation à faire ni de table ronde à animer… Par exemple le super webinaire du C2DH sur les usages pédagogiques de Chat-GPT (enregistrement disponible), la journée d’études NumFem2023 du CIS (Le numérique comme méthodes et terrains. Perspectives féministes), un atelier sur le Linked Art adossé à EuropeanaTech et un autre organisé par le SCAI sur l’utilisation de l’IA dans les sciences du patrimoine. Et tout ça était vraiment passionnant !

Je liste ci-dessous les événements dans lesquels je suis intervenue, en commençant par celles qui ont donné ou donneront lieu à des publications :

3, 4 et 5 avril 2023 : Colloque international « Le web : source et archive » (Univ. de Lille). Présentation avec Marie-Madeleine Géroudet : Le cycle d’ateliers ResPaDon, bilan et préconisations. La publication à venir concerne notre table ronde avec Grégory Miura et Sophie Gebeil : Enjeux épistémologiques et didactiques des sources web.
5-6 juin 2023 : conférence RESAW 2023, « Exploring the Archived Web During a Highly Transformative Age » (MUCEM, Marseille). Table ronde avec Laurence Favier, Audrey Baneyx, Benjamin Ooghe Tabanou, Sara Aubry, Alexandre Faye et Marie-Madeleine Geroudet : A network to develop the use of web archives: three outcomes of the ResPaDon project.
25-27 juin 2023 : WKD 2023, The Future of culture. Financing and governance in the digital age. World Knowledge Dialogue 2023 (Montreux, Suisse). Présentation : Mutation des institutions patrimoniales / Change in heritage institutions. Le bilan a été publié dans la revue Cultural Trends.
14 et 15 septembre 2023 : SWHAP Workshop (Software Heritage, INRIA, Paris). Atelier collaboratif de deux jours avec Mathilde Fichen, Morane Gruenpeter, Jérémy Bobbio, Sabrina Granger, Roberto Di Cosmo, Jean-François Abramatic, Isabelle Astic, Camille Françoise, Claude Gomez, Wendy Hagenmaier, Grégory Miura, Carlo Montangero, Simon Phipps, Kenneth Seals-Nutt. Le compte-rendu complet de l’atelier est public sur HAL.

Voici maintenant les conférences où j’ai fait des présentations sans publication (parfois avec captation vidéo néanmoins) :

13 mars 2023 : Journée d’études « Faire réseau autour des archives du web : Perspectives du projet ResPaDon » (BnF). Deux présentations avec Marie-Madeleine Géroudet : Le projet ResPaDon : retour sur l’origine et les coulisses d’un projet d’envergure nationale et Les préconisations du projet. Captation de la journée disponible sur YouTube.
16 mars 2023 : Journée d’étude OBTiC « La littérature au prisme des humanités numériques » (Institut d’études avancées de Paris). Présentation : Enjeux de l’intelligence artificielle dans les archives, bibliothèques et musées. Voir le Programme complet.
13 au 23 juin 2023 : 7e édition de l’école d’été internationale francophone des sciences de l’information et des bibliothèques de l’AIFBD, « Patrimoine, numérique et intelligence artificielle » (Bibliothèque d’Alexandrie, Égypte – à distance). Présentation : Patrimoine numérique et intelligence artificielle.
17 octobre 2023 : Journée d’étude en ligne « Ouverture et sémantisation des données culturelles : perspectives transatlantiques » (CIÉCO, Montréal, Québec, Canada). Présentation introductive de la 2e session (le programme indique que j’ai participé à la table ronde, mais en fait je n’ai pas pu en raison d’une contrainte d’agenda).

Et pour finir, les contributions à des tables rondes ou des présentations plus informelles :

20-23 mars 2023 : « Biblissim-IA-2023 » Journées annuelles du cluster 3 de l’EquipEx Biblissima+ (Humathèque, Campus Condorcet, Aubervilliers). Table ronde avec Jean-Baptiste Camps, Matthieu Husson, Peter Stokes : Savoirs et formation.
11 mai 2023 : Le Printemps des métiers, journée d’études « 1, 2, 3… IA ! Intelligence artificielle, métiers et compétences » (ENSSIB). Avec Malcolm Walsby : Point de vue croisé sur les usages et outils de l’IA. Vidéos disponibles en ligne.
12 mai 2023 : Colloque « Comment préserver les jeux vidéo… sans y jouer ?« (BnF). Conférence conclusive : Le patrimoine numérique : quelle émotion ! Captation disponible en suivant ce lien.
20 juin 2023 : journée d’études « Penser la découvrabilité des contenus culturels » (BnF). Animation d’une table ronde : Quelles articulations entre les différentes formes de recommandation, algorithmiques et humaines ? Captation disponible en suivant ce lien.
4 juillet 2023 : Journée d’études AAF-ENC « L’intelligence artificielle dans la gestion des données ». Table ronde avec Francesco Siri et Eve Jullien : Formations et intelligence artificielle.
4 octobre 2023 : Journées annuelles du CIS 2023 (Centre Internet et Société du CNRS). Table ronde modérée par Benjamin Thierry, avec Estelle Bunout, Marta Severo et Geneviève Vidal : Les données du patrimoine numérique.
6 octobre 2023 : Rencontres de l’histoire de Blois. Entretien avec Michel Melot : Carte blanche à l’École nationale des chartes : Archivistes et historiens face au patrimoine numérique.
17-18 octobre : congrès CIDE 2023 « Document et archivage : pratiques formelles et informelles dans les organisations » (Université de Grenoble Alpes, participation à distance). Table ronde modérée par Jean-Marc Francony, avec Alexis Arnaud, Dominque Naud et Fanny Valembois : Archive numérique et environnement, les défis de la sobriété.
16-17 novembre : Conférence annuelle de la communauté AI4LAM Fantastic Futures 2023 (Vancouver, Canada). Animation de la table ronde Organizing within LAMs to Address AI avec Tom Cramer, Svein Arne Brygfjeld, Laurie Allen, Ingrid Mason, Stu Snydman. Mise en ligne des vidéos à venir.
24 novembre : journée d’études annuelle Afnor/BnF sur le thème « l’IA dans les métiers de l’information et de la documentation ». Table ronde animée par Grégory Miura, avec Marco Leoni, Luc Bellier et Jean-Philippe Moreux : Comment s’emparer de l’IA. Captation disponible en suivant ce lien.

Publications

Sinon, un enseignant-chercheur, ça publie ;-) Et ça tombe bien, c’est une activité que j’apprécie particulièrement. Alors si je prévois surtout d’en récolter les fruits en 2024 avec mon livre, voici quand même un bilan plutôt positif pour cette année :

J’ai publié dans la revue Balisages de l’ENSSIB (n°6) un article scientifique intitulé « Trente ans de numérique à la BnF. Devenir d’une utopie. » Lui aussi est essentiellement tiré de mon mémoire de doctorat, mais la partie méthodologique est toute neuve.
J’ai eu le privilège d’être invitée à préfacer l’ouvrage de Véronique Mesguich, Les bibliothèques face au monde des données (Presses de l’ENSSIB, 2023). Une très bonne entrée en matière pour tous les professionnels qui s’interrogent sur ces questions, et y trouveront une vision panoramique de la situation actuelle.
J’ai également contribué au très riche numéro de Culture et Recherche sur la science ouverte paru cette année (n°144, printemps-été 2023) en rédigeant un très court article sur les données FAIR, illustré d’un sketchnote maison que j’ai le plaisir de vous offrir ici en CC-BY-NC comme tous les contenus de ce blog ;-)

Blog qui n’était pas en reste puisque cette année j’ai publié 3 billets (waouh -_-) :

Archiver le web pour les chercheurs, mode d’emploi
Le compte-rendu de l’édition 2023 des Futurs fantastiques
Et mon best-seller 2023 : Modélisons un peu : le choix d’un type de bases de données.

Si j’arrive à tenir mes bonnes résolutions, l’année prochaine je ne compterai pas tous les billets dans les publications parce qu’il y en aura trop ! On prend les paris ?

Modélisons un peu : le choix d’un type de bases de données

Publié le 13/12/2023 par manuefig

Alors que je préparais mon dernier (ou presque) cours de modélisation de l’année pour les TNAH, m’est venue l’idée saugrenue de faire un arbre de décision qui récapitulerait les critères de choix entre différents types de bases de données : relationnelles, NoSQL, graphes, colonnes, bases de données documents XML ou non, moteurs de recherche… Il y a beaucoup d’options et ce n’est pas toujours évident d’avoir les idées claires.

Je me suis donc tournée vers Gautier, dont le puits de slides reste la ressource n°1 en matière de formation à la donnée, pour qu’il m’aide à trouver les bonnes formulations et à raconter des choses pertinentes du point de vue de l’infrastructure technique. Il faut dire que cette question nous agite depuis pas mal de temps (on se souviendra des quelques nuits blanches qu’on a passées au moment où on a décidé de mettre les métadonnées de SPAR dans un triple-store RDF) et qu’on se sent un peu responsables du prosélytisme qu’on a pu faire autour des technologies du web sémantique, aujourd’hui largement remises en perspective (lire la série de 4 billets à ce sujet sur Les petites cases).

Néanmoins, après quelques années où j’ai carrément refusé de continuer à enseigner RDF et SPARQL en arguant que ça ne servait plus à rien (merci le creux de la désillusion), je constate actuellement un regain d’intérêt pour le web de données, notamment dans le contexte des données « FAIR » pour la recherche. Je vois régulièrement passer des fiches de stage / de poste qui demandent des compétences en web sémantique, que ce soit pour modéliser des ontologies ou pour faire des requêtes SPARQL. Il est donc important de continuer à former des ingénieurs et analystes des données dans ce domaine, mais en prenant la précaution de replacer cette technologie dans le paysage global des systèmes de gestion de données existant à l’heure actuelle. L’enjeu est de bien comprendre dans quels cas elle peut rendre des services, et dans quelles situations il vaut mieux se tourner vers autre chose.

Différents types de modèles

C’était donc le point de départ de ma démarche, et il m’a emmenée assez loin :

d’abord, il a fallu rappeler que quand on parle de modélisation de données, on a en fait 3 couches de modèles :
- le modèle conceptuel, qui décrit des entités du monde réel et leurs relations,
- le modèle logique qui exprime les données sous une forme pouvant être manipulée par un traitement informatique,
- et le modèle physique qui correspond à la façon dont l’information est exprimée dans un format ou stockée dans un logiciel.

Schéma présentant les 3 types de modèles : conceptuel, logique, physique. Il reprend ce qui est expliqué dans le texte.

À partir de là, j’ai pu détailler les principes et les spécificités des 3 types de modèles logiques :
- le modèle en tables, qui organise les données en tableaux où chaque colonne correspond à un attribut et chaque ligne à une instance ou enregistrement (c’est le modèle des bases de données relationnelles, mais aussi des jeux de données tabulaires en Excel ou CSV),
- le modèle d’arbre, adapté pour représenter une information organisée hiérarchiquement sous la forme de documents (par exemple, en XML ou en JSON),
- le modèle de graphe, où les données sont reliées entre elles suivant la logique des prédicats (en RDF) ou d’autres types de logique de graphe comme les property graphs.
On va alors pouvoir s’intéresser aux différents types de SGBD (systèmes de gestion de base de données) qui correspondent à ces modèles :
- les bases de données relationnelles,
- les bases de données en colonnes,
- les bases de données document,
- les bases de données graphe.

Pour mémoire, ces « bases de données » ou plutôt ces « systèmes de gestion de bases de données » sont des logiciels qui assurent le stockage des données suivant un modèle logique, et fournissent des interfaces – souvent normalisées – pour interagir avec les données. Par exemple, dans une base de données relationnelle, les données sont stockées dans des tables et on interagit avec elles grâce au langage de requête SQL. Passons en revue de manière un peu plus détaillée ces différents outils.

Différents systèmes de gestion de base de données

Les bases de données relationnelles sont les doyennes de leur catégorie et en même temps, restent des outils fiables, solides et maîtrisés, qui peuvent rendre des services à différentes échelles, de la gestion d’informations personnelles en local jusqu’au pilotage d’énormes systèmes d’information. Elles sont efficaces pour stocker des données complexes dans des grandes volumétries, en offrant de bonnes performances en lecture (pour consulter les données) comme en écriture (pour produire et modifier les données).
Surtout, les bases relationnelles sont conformes aux propriétés ACID (Atomicité, Cohérence, Isolation, Durabilité), c’est-à-dire qu’elles garantissent la gestion des transactions. Imaginons que vous ayez besoin de faire une modification dans vos données qui va impacter 500 enregistrements : c’est une transaction. Une fois que celle-ci est lancée, la base va soit l’exécuter jusqu’au bout, soit revenir à l’état initial (en cas de plantage par ex.) Si on lui demande une autre modification (une autre transaction) entre temps, celle-ci sera mise en file d’attente. Grâce à ce principe, la cohérence des données est garantie : il est impossible qu’une même donnée soit simultanément dans deux états différents.
Ces propriétés des bases de données relationnelles en font les favorites dans de nombreuses situations. Il peut toutefois arriver que vos données soient trop hétérogènes pour être exprimées en lignes et en colonnes : ainsi, lorsque je décris un inventaire d’archives, il m’est impossible de savoir à l’avance combien il aura de composants et comment j’aurai besoin de les décrire. Dans ce cas-là, d’autres modèles logiques peuvent être plus indiqués (on les regroupe parfois sous le nom de « NoSQL » ce qui veut juste dire que ce ne sont pas des bases de données relationnelles).

Une autre limite des bases de données relationnelles réside dans la contrainte de cohérence qu’imposent les principes ACID : il est (presque) impossible de les exécuter dans les environnements distribués qui caractérisent aujourd’hui le « big data ». En effet, ces environnements reposent sur le principe de scalabilité horizontale : quand j’ai besoin de plus de performance, je rajoute des machines en parallèle. Il devient alors difficile de continuer à garantir la cohérence des données, car elles peuvent être écrites et lues à différents endroits, avec un délai variable de synchronisation (je schématise sans doute beaucoup trop, mais vous voyez l’idée.)
Le théorème de CAP nous enseigne qu’un système ne peut pas être à la fois cohérent (C), toujours disponible (A pour Available) et distribué (P pour Partition) : les systèmes ACID se concentrent sur les deux premiers, et les systèmes distribués sur les deux derniers.

Visualisation du théorème de CAP sous la forme d'un schéma. On voir que les bases de données relationnelles sont entre le C (consistency) et le A (availability)

Si on a absolument besoin de scalabilité horizontale, et que le modèle est assez simple pour être réduit à une seule table, les bases de données en colonnes (Column Store) peuvent s’avérer utiles. Mais cela arrive quand même assez rarement dans le domaine des données culturelles et historiques, donc je ne m’étendrai pas sur ce scénario.

Les bases de données document sont conçues pour accueillir des données semi-structurées sous la forme de fichiers XML ou JSON par exemple. C’est pour cela qu’on parle de base de données orientée document : 1 fichier = 1 document. Elles permettent une montée en charge progressive des volumes de données, c’est à dire qu’il est relativement simple d’ajouter de nouvelles données (sous la forme de nouveaux documents ou fichiers) sans perturber les données existantes.
Leur principale contrainte est d’imposer un modèle centré sur une entité principale : pour que la base soit cohérente, il faut que tous les documents qui la composent soient de même nature (par exemple, des éditions de texte en TEI ou des inventaires d’archives en EAD). Cela va imposer une limite forte : si on a des données transverses à plusieurs documents (par ex. un référentiel de personnes pour les auteurs, producteurs, personnes évoquées ou représentées…) et que celles-ci sont modifiées fréquemment, il va falloir modifier tous les documents où ces données sont présentes, ce qui peut être assez lourd et surtout risqué. Sans la garantie ACID (voir ci-dessus, les bases relationnelles), on peut se retrouver dans une situation où une partie des documents est mise à jour, le système plante au milieu du processus, le reste n’est pas modifié… et paf, incohérence dans les données !

Le moteur de recherche est une base de données document dotée de fonctionnalités particulières : il facilite notamment la recherche plein texte (grâce à la constitution d’un index) et le filtrage par facettes des résultats. Il permet en outre de très bonnes performances en lecture (montée en charge du nombre d’utilisateurs et vitesse de réponse). Par contre, en raison des limites évoquées ci-dessus, on a plutôt tendance à l’utiliser comme stockage secondaire, c’est-à-dire qu’il va servir uniquement en lecture et pas en écriture, celle-ci étant assurée par un stockage primaire dans un autre type de base.

Schéma : le stockage primaire contient des data avec un accès principalement en écriture. Le stockage secondaire sert principalement l'accès en lecture pour les utilisateurs. Synchronisation entre les 2.

Finalement, si on a un modèle de données trop complexe pour l’exprimer sous forme de documents, et trop hétérogène pour qu’il rentre aisément dans une base de données relationnelle, cela vaut le coup de regarder du côté des bases de données graphes. Celles-ci sont aux données ce que la lampe magique est à Aladin : « des pouvoirs cosmiques phénoménaux… dans un vrai mouchoir de poche ! » (si vous m’avez lue jusque là, vous me pardonnerez la métaphore.)
Le mouchoir de poche, c’est le modèle de triplet (ou de quadruplet, ou autre, suivant le type de graphe que vous utilisez) : on réduit la complexité du modèle à une logique minimaliste et flexible, qui permet d’exprimer à peu près n’importe quoi (d’où les pouvoirs phénoménaux). Mais… all magic comes with a price. Et le prix à payer c’est que ces modèles sont relativement complexes à manipuler, avec des enjeux de maintenabilité et de performance.

Gif animé extrait de la série "Once upon a time" : Rumplestiltskin lève sa baguette en disant "all magic comes with a price"

Si le monde des graphes vous tente, la question est de savoir si vous avez besoin de placer votre graphe dans le web de données, pour faire le lien avec une communauté qui a décidé d’adopter les standards du web sémantique, notamment RDF et SPARQL (ce qui peut quand même être le cas assez souvent dans le domaine des données culturelles et des données de la recherche). Si oui, vous pouvez envisager d’utiliser un triple-store RDF. Mais il faut garder en tête que ces outils ont souvent des limites de performance et qu’ils sont assez peu maîtrisés dans l’industrie (ce qui veut dire qu’il sera difficile de trouver des prestataires pour les développer et les maintenir).
Si vous n’avez pas d’enjeu de diffusion web, pourquoi ne pas opter pour un autre type de graphe comme les « property graph » ? Cela permet de se débarrasser de certains détails agaçants comme la réification (acrobatie de modélisation nécessaire pour représenter certaines informations dans le modèle de triplet) ou les URI (parce que quand même, les URI, c’est compliqué, et si vous pensez le contraire je vous invite à venir expliquer le concept des préfixes en classe l’an prochain).
Malgré tout, ces outils ne vous offriront pas la même robustesse qu’une bonne vieille base de données relationnelle, et resteront plus difficiles à manier qu’une base orientée document (pour afficher le graphe, il faut le redocumentariser de toute façon, c’est-à-dire choisir les triplets qui décrivent une entité et les réunir dans un document JSON, XML ou autre). Cela vaut donc quand même le coup de se demander si l’exposition dans un SPARQL endpoint ne peut pas être un stockage secondaire : au passage, c’est le cas dans data.bnf.fr, qui est construit avec l’outil Cubicweb de Logilab dans lequel les données sont stockées sous la forme d’une base de données relationnelle, quand bien même on a un modèle logique en RDF (cf ci-dessus : dans ce cas précis, il y a une différence entre le modèle logique et le modèle physique). De la même manière, si on a des données stockées de façon primaire sous forme de graphe, disposer d’un stockage secondaire de type moteur de recherche peut aider à résoudre par exemple des problèmes de performance ou à simplifier l’accès aux données.

L’arbre de décision

Après toutes ces réflexions (pfiou !), nous voici prêts à parcourir l’arbre de décision qui résume tout cela :

Arbre de décision permettant de sélectionner un modèle logique et un système de gestion de base de données en fonction d'un modèle conceptuel.

Cet arbre de décision part du principe que vous avez déjà défini votre modèle conceptuel, que vous savez donc de combien de classes et de relations vous avez besoin, quels sont les attributs de vos entités et s’ils sont plutôt homogènes (toutes les instances d’une classe sont décrites de la même manière) ou pas.

La partie haute du schéma vous permet de déterminer quel est le meilleur modèle logique en fonction de votre modèle conceptuel.
La partie du milieu vous permet de déterminer quel est le meilleur type de système de gestion de base de données en fonction de vos usages.
Enfin, la partie du bas identifie les cas où l’on peut avoir besoin d’un stockage secondaire.

Il a fallu 134 diapos à Gautier pour expliquer tout cela. De mon côté, j’y passe une vingtaine d’heures en cours. Ici je vous propose une grosse tartine de texte assortie d’un outil de pensée visuelle : il va de soi que cela n’épuise pas le sujet, mais j’espère quand même que ce billet pourra rendre quelques services (que celles et ceux qui veulent qu’on écrive un manuel complet sur la data lèvent la main !)

Toujours plus de futurs fantastiques ! (édition 2023)

Publié le 19/11/2023 par manuefig

Vue de la salle principale du bâtiment "The Permanent", avec un plafond en verre coloré

Nous voici à Vancouver, dans une ancienne banque construite en 1907, un bâtiment appelé « The Permanent » qui est désormais le siège canadien d’Internet Archive. C’est là que se sont réunis, en ce mois de novembre 2023, les membres de la communauté AI4LAM, consacrée à l’intelligence artificielle dans les institutions culturelles. Souvenez-vous, j’avais assisté à la conférence Fantastic Futures, 2e édition, à Stanford en 2019, et organisé celle de 2021 à Paris.

Cette année, le programme inclut une journée de workshops et deux jours de conférence plénières (dont les enregistrements vidéo devraient être bientôt diffusés), auxquels s’ajoute une réunion du AI4LAM council, l’un des organes de pilotage de la communauté. Je vous livre ici mon compte-rendu partial, partiel et personnel de ces trois jours de travail fécond : pour la première fois, j’avais la sensation de participer en observatrice, étant sortie de la communauté des professionnels, mais préoccupée par une question en particulier : quelle formation faut-il proposer aux personnes qui vont mener des projets IA dans les bibliothèques, archives et musées dans les années à venir ?

Un enjeu : embarquer !

Si les conférences de 2018 et 2019 étaient celles de la découverte, principalement tournées vers la sensibilisation aux enjeux d’une technologie émergente encore peu utilisée dans le monde culturel, celle de 2021 avait montré la maturité de plusieurs projets massifs dans des institutions pilotes. En 2023, le monde a changé : l’irruption de Chat-GPT est vue comme un déclic qui a fait évoluer la perception de l’IA dans la société et de fait, dans les institutions patrimoniales. Il ne fait désormais plus de doute que l’IA est dans le paysage et va changer la donne pour beaucoup de métiers et d’activités : au-delà des « early adopters« , chacun réfléchit à son « use case« , son projet ; la conférence fait la part belle à l’expérimentation, celle-ci requérant de moins en moins de moyens et de compétences techniques, tant le cloud offre de services clef-en-main.

Pour moi, la question majeure qui se pose cette année c’est comment faire « embarquer » dans le vaisseau AI4LAM de nouveaux collègues, qui ont certes de nouveaux projets, mais souhaitent surtout apprendre, comprendre, s’approprier ces nouveaux outils qui ont à présent fait leurs preuves et découvrir comment les intégrer dans leur quotidien.

Dans ce contexte, beaucoup des personnes présentes à Vancouver font figure de spécialistes, de « passeurs », d’accompagnantes : sans être toujours des expertes en ingénierie, elles peuvent jouer le rôle d’aider à embarquer leurs collègues, que ce soit à l’échelle d’une institution, de la communauté dans son ensemble ou d’un groupe spécifique (comme le chapitre francophone d’AI4LAM récemment créé). La question, c’est comment faire !?

Phase 1 : comprendre

Je m’inspire ici du AI planning framework de la Library of Congress, publié juste la veille de la conférence, pour nommer cette première étape. L’outil est encore jeune et demande à être testé, même si le LC Labs a passé cette année à l’éprouver en interne : nos collègues Laurie Allen et Abbey Potter nous invitent maintenant à nous en saisir pour nous aider notamment dans les phases amont de la planification d’un projet IA.

Quel projet IA êtes-vous ?

L’idée est la suivante : quelqu’un débarque dans votre bureau et vous annonce qu’il ou elle souhaite faire un projet IA sur {insérez ici le sujet de votre choix}. On va alors planifier le projet en 3 phases :

une phase d’analyse (understand) visant notamment à évaluer son intérêt, sa faisabilité et à gérer les attentes notamment en matière de qualité du service rendu,
une phase d’expérimentations itératives, visant d’abord à voir si la technologie envisagée fonctionne, puis quels résultats on peut espérer en attendre, et enfin comment ceux-ci peuvent s’intégrer dans le fonctionnement du service,
et enfin, une phase d’implémentation qui implique la mise en place de politiques et standards qui vont garantir un usage responsable de l’IA.

L’outil créé par le LC Labs prend la forme d’une série de questionnaires (« worksheets« ) qui accompagnent chaque étape et jouent autant un rôle de sensibilisation technique et stratégique que de planification. On y trouvera ainsi une analyse des risques, un diagnostic sur l’état et la disponibilité des données, un plan de traitement données et un modèle de contractualisation (les outils de la phase « implement » sont encore en construction).

Cette phase d’analyse préalable est aussi celle où il va falloir se familiariser avec des notions clefs (qu’est-ce qu’une vérité terrain ? comment entraîner un modèle ? ça veut dire quoi fine-tuner ? etc…) et où la formation (qu’elle porte ce nom ou pas, on a souvent parlé plutôt de montée en compétences collective) va jouer un rôle. Cette question était au cœur de plusieurs des workshops du mercredi, l’un des fils rouges étant d’intégrer l’IA dans la littératie numérique classique des bibliothécaires, à travers des initiatives comme Library Carpentry ou dans des cadres de référence comme celui de l’ACRL (association des bibliothèques de recherche américaines).

Le voir pour le croire

Comprendre, cela passe aussi par le fait de pouvoir soi-même tester et manipuler les outils d’intelligence artificielle. Si Chat-GPT a été une telle révolution (alors que les « LLM », large language models, de type transformers étaient dans le paysage depuis plusieurs années), c’est parce que tout à coup, on disposait d’une interface permettant à n’importe qui de les utiliser. Appliquant ce concept aux GLAMs et au traitement des images (computer vision), le projet AI explorer du Harvard Art Museum propose de se poser la question suivante : chacun de nous voit des choses différentes quand il regarde une œuvre d’art ; que voient les ordinateurs ? Les œuvres du musée numérisées ont été étiquetées avec une palette d’outils IA disponibles sur le marché : on peut dès lors comparer les approches de ces différents outils et observer leur pertinence ou au contraire, leurs hallucinations.

Dans le même esprit, on a cité MonadGPT, un chatbot réalisé par Pierre-Carl Langlais qui a été entraîné uniquement sur des textes du 17e siècle et répond donc aux questions avec une vision du monde arrêtée à cette époque. On mesure ainsi l’impact du choix des corpus d’entraînement sur le résultat obtenu, ce qui permet aussi de relativiser la pertinence d’outils comme Chat-GPT.

Enfin la Teachable Machine de Google (utilisée par Claudia Engel et James Capobianco dans leur workshop) permet d’entraîner un véritable modèle Tensorflow sur des images, des sons ou des mouvements sans avoir besoin de connaître la moindre ligne de code. Voilà qui permet d’appréhender par la pratique ce que veut dire entraîner et tester un modèle : il n’y a rien de tel pour se confronter aux enjeux de sélection des données que cela peut poser. J’ai aussi entendu dire que la Teachable Machine était utilisée dans certains projets où on a besoin de faire entraîner les modèles par des chercheurs qui n’ont pas de compétences techniques, pour ensuite récupérer et déployer le fichier Tensorflow qu’elle génère. Mais là, on entre dans les phases suivantes : expérimenter et implémenter (merci pour la transition !)

Phase 2 : expérimenter

L’expérimentation, c’était vraiment le maître mot de cette conférence : une multitude d’outils, d’exemples, de cas d’usages nous ont été présentés et j’aurais même du mal à tous les lister ici. La démarche était souvent une quête d’appropriation : cet outil existe, il a l’air de fonctionner, ce n’est pas si compliqué que ça de l’utiliser, et si je l’essayais sur mes collections ? Mais ce qui m’a le plus frappée, c’est l’inventivité dont font preuve les collègues pour tirer parti notamment des IA génératives dans les contextes les plus divers.

Prompt engineering et métadonnées

Bien sûr, en tant que bibliothécaires, la première question (ou presque) qu’on se pose, c’est de savoir si on ne pourrait pas générer des métadonnées et des descriptions structurées à partir des documents eux-mêmes. Au-delà des approches qu’on connaissait déjà (comme l’utilisation d’Annif pour générer des indexations sujet), certains se sont lancés dans des opérations complexes de prompt engineering : chaînage, utilisation d’exemples et de fonctions, intégration de Json et d’instructions de formatage aux prompts pour générer des données structurées… Voir par exemple les expérimentations réalisées par le groupe Metadata d’AI4LAM ou encore les travaux de William Weaver sur la transcription des inscriptions figurant sur les herbiers : dans ce dernier cas, il combine segmentation des zones de texte, production d’un OCR et prompt engineering pour passer de la numérisation en mode image à la génération d’un tableur où ces informations sont rangées de manière organisée… merci le LLM !

Chatbots et archives

Une autre « famille » d’applications nous emmène vers une approche complètement nouvelle des archives : et si on pouvait poser des questions aux documents au lieu de les lire ? Plusieurs projets comme Rednal.org se sont penchés sur l’idée d’un chatbot qui se limiterait à un document, un fonds ou un corpus et auquel on pourrait demander par exemple de résumer les idées importantes ou de chercher si telle ou telle information s’y trouve. JSTOR a même déployé ce service en version Beta, en y ajoutant une aide à la recherche qui permet de rebondir depuis un document vers d’autres ressources disponibles sur la plateforme. Ce ne sont pas des idées 100% nouvelles : un assistant pour nous aider à nous balader dans la bibliothèque numérique, on l’avait déjà rêvé, mais grâce à Chat-GPT, ils l’ont fait et le résultat est assez bluffant.

Transcrire et annoter les ressources audiovisuelles

Le traitement des ressources audiovisuelles, et en particulier le speech-to-text avec le modèle open source Whisper, semble être enfin l’un des domaines essentiels d’utilisation de l’IA dans les GLAMs. Le projet conduit par Peter Sullivan pour Interpares sur les archives audio de l’Unesco a montré qu’une approche multilingue était possible (et que la diplomatique pouvait jouer son rôle dans l’amélioration de la génération de métadonnées ;-). Nous avons eu droit à une petite démo de la plateforme australienne ACMI (en Beta) et de l’impressionnant éditeur de workflow d’AMP (Audiovisual Metadata Platform), un générateur open source de métadonnées pour contenus audiovisuels (pas encore en production).

Que retenir de toutes ces expérimentations ? Principalement que cette étape d’expérimentation, la 2e dans le modèle de planification de la LoC, est en fait une phase itérative au cours de laquelle on passe par plusieurs questions :

est-ce que cet outil peut marcher sur mes collections ?
une fois qu’il fonctionne, quel niveau de qualité peut-on en attendre ?
une fois que j’ai atteint le niveau attendu, comment l’intégrer à mes services opérationnels ?

Et ainsi, nous voici en route vers la 3e phase : implémenter.

Phase 3 : implémenter

La question du passage de l’expérimentation « R&D » à la mise en production ou intégration aux services opérationnels était l’un des points abordés dans la table ronde que l’on m’a chargée d’animer avec plusieurs institutions (Stanford et Harvard Libraries, bibliothèque nationale de Norvège, Library of Congress et National Film and Sound Archives en Australie). Ces institutions, dont plusieurs se sont dotées de « Labs », reconnaissent que le pas est difficile à franchir, notamment pour des raisons organisationnelles. Face à l’IA, avant même d’entrer dans les enjeux techniques, se posent des questions de montée en compétences, d’alignement des valeurs et des attentes, de disponibilité des données, de mutualisation des moyens.

J’ai apprécié le fait qu’on nous ait proposé des retours d’expérience divers dans ce domaine : du bilan dressé par la British Library de l’imposant projet Living with machines (qui vient de se terminer) au rapprochement informel de trois institutions fédérales couvrant la palette des LAM (LoC, NARA et Smithsonian) en passant par le comité IA que la bibliothèque de l’Université du Mississippi a mis en place pour répondre aux sollicitations contradictoires des universitaires et étudiants… Il existe bien des modèles et des approches pour envisager l’IA dans les institutions culturelles, qui ne nécessitent pas toutes le même degré d’investissement dans le développement et les infrastructures.

Mais quand même, la question qui brûle toutes les lèvres, c’est de savoir si ces tous ces services innovants sont déployés à l’échelle, visibles, disponibles pour les usagers !

Le « vault », coffre-fort de The Permanent… Les secrets de la mise en production de l’IA sont-ils cachés ici ???
(Photo Neil Fitzgerald)

Alors oui, j’en ai déjà cité quelques exemples : on a des versions Beta à droite et à gauche que l’on peut voir fonctionner ; on a vu par exemple apparaître un nouveau service « Text-on-maps » sur le site de la David Rumsey Historical Map collection de Stanford qui est assez épatant.

Du côté déploiement à l’échelle, on va trouver les « gros » acteurs qui ont à la fois une force de frappe importante en matière d’investissement et l’agilité qui reste difficile à atteindre dans le service public. Internet Archive a ainsi déployé son portail « Internet Archive Scholar » qui utilise l’intelligence artificielle pour repérer des articles scientifiques dans l’archive web et extraire des métadonnées (savourez le logo vintage…) OCLC a testé un algorithme de dédoublonnage des notices dans Worldcat qui leur a permis de passer d’un taux d’élimination des doublons tournant autour de 85-90% à plus de 97%, sur des millions de notices. Ainsi, certaines applications de l’IA sont mises en service « dans l’ombre », à un endroit où l’internaute ne peut pas les voir mais bénéficie du service rendu : recadrer les pages issues de la numérisation ou améliorer la qualité de l’OCR chez Internet Archive, marquer les « unes » des journaux numérisés à la Bibliothèque nationale de Norvège…

La technologie et l’humain

Au final, quand on examine tous ces projets (y compris ceux de la phase expérimentale), c’est souvent la question de la qualité des données qui freine, voire empêche la mise en production. Quand on exige un taux d’erreur nul ou presque, l’automatisation est-elle la bonne solution ? Beaucoup répondent en proposant de voir l’IA comme un « copilote », qui ne va pas résoudre tous les problèmes mais seulement faciliter ou assister le travail des humains dans une collaboration fructueuse. Les humains sont donc toujours dans la boucle (Human-in-the-loop comme on dit en anglais).

Ce qui nous amène aux questions éthiques, loin d’être absentes de cette édition puisque les deux conférences introductives les ont abordées, sous des angles différents. Thomas Mboa, chercheur en résidence au CEIMIA, a développé le concept de technocolonialité, posant l’idée qu’à l’heure actuelle, l’enjeu de la colonisation n’est plus géographique : nous sommes tous colonisés par la technologie, et il nous revient de veiller à préserver notre intégrité culturelle, en luttant contre l’extractivisme numérique (exploitation des fournisseurs de données, par le digital labor et autres) et le data-colonialisme, et en luttant en faveur de l’ouverture, de la justice des données et de la mise en places d’écosystèmes de confiance entre les acteurs.

C’est encore la confiance qui était mise en avant par Michael Ridley de l’Université de Guelph au Canada, deuxième conférencier qui prônait l’explicabilité de l’intelligence artificielle (couverte par le sigle XAI), pas seulement pour les développeurs qui cherchent à ouvrir la boîte noire, mais pour toutes celles et ceux qui interagissent avec ces algorithmes. Ces différentes visions concouraient finalement à envisager l’IA comme un collaborateur de plus dans une équipe et à parler, plutôt que d’intelligence artificielle, « d’intelligence augmentée ».

En guise de conclusion, un plan d’action

Il y aurait sans doute encore beaucoup à dire, mais je vais clore ce billet déjà trop long en revenant sur ma question de départ : aujourd’hui, à quoi faut-il former les professionnels qui auront à mener des projets IA dans des institutions culturelles ? (Par exemple dans le cadre d’un master dont ce serait précisément la fonction…) Au-delà des bases théoriques de l’IA et des principaux cas d’usage, il me semble qu’il y a plusieurs idées qui méritent d’être creusées :

analyser, diagnostiquer, faire des études amont pour déterminer la faisabilité d’un projet : prendre en main l’outil de planning de la LoC, le tester, voire le traduire en français pourrait être très utile dans ce contexte ;
utiliser des API pour intégrer les différents modèles existants dans une chaîne de traitement de données ;
faire du prompt engineering avancé pour apprendre à exploiter de manière productive les LLM, en combinaison avec d’autres outils de traitement comme l’OCR/HTR par exemple ;
travailler sur la qualité des données en amont comme en aval du processus IA, maîtriser les métriques habituels (précision, rappel etc.) mais aussi savoir élaborer des démarches d’évaluation de la qualité spécifiques à des contextes ou des usages particuliers ;
enfin, promouvoir des modèles ouverts, explicables, soucieux du respect de l’humain et de l’environnement, bref des IA conçues et utilisées de manière responsable.

Du côté d’AI4LAM, la discussion du conseil a aussi débouché sur l’idée qu’il allait falloir mettre en place des dispositifs d’embarquement pour les nouveaux collègues. Un réservoir de diapos de référence, des présentations régulières d’introduction aux bases de l’IA pour les GLAM (en plusieurs langues et dans plusieurs fuseaux horaires), une « clinique de l’IA » où chacun pourrait venir avec ses questions, des sessions Zoom de rencontre autour de thématiques spécifiques… sont autant d’idées que nous avons brassées pour y parvenir. Il y aura des appels à la communauté pour participer à ces initiatives alors si vous voulez nous rejoindre, n’hésitez pas !

Pour s’abonner aux différents canaux d’échange d’AI4LAM, c’est par ici. Pour devenir membre du chapitre francophone, il vous suffit de rejoindre le forum de discussion du groupe.

Archiver le web pour les chercheurs : mode d’emploi

Publié le 24/02/2023 par manuefig

Depuis deux ans, grâce au projet ResPaDon, je travaille de manière un peu plus approfondie sur les usages des archives web pour la recherche, et ça tombe bien car mes nouvelles activités depuis octobre me conduisent en ce moment d’une part à me replonger dans ma thèse en vue de son édition, et d’autre part à enseigner sur le sujet.

Alors en attendant la journée d’étude professionnelle et le colloque « Le web, source et archive » qui vont conclure ce beau projet respectivement le 13 mars à la BnF et les 3-5 avril à Lilliad, voici en mode mise en bouche un petit mode d’emploi pour les chercheurs qui ont besoin d’archiver des contenus web.

Vous allez me dire, c’est quand même assez spécifique, il y a finalement assez peu de gens qui sont concernés. Mais en fait si. Cela peut arriver à tout le monde de tomber sur un lien mort, une erreur 404 (à commencer par moi-même quand je cherche des vieux trucs dans mon blog, vu que j’ai pété toutes mes URL).
Si on anticipe un tout petit peu ce problème, en tant que chercheur (au sens très large de « quelqu’un qui cherche », quel que soit le sujet, il arrive qu’on tombe sur des ressources en ligne dont on n’est pas sûr qu’elles seront encore là demain (par exemple le blog d’une personne irresponsable qui ne fait pas attention à la préservation de ses URL) voire dont on est sûr qu’elle n’y seront plus (par exemple une fiche de poste intéressante pour réfléchir aux compétences d’étudiants en master).
Dans ces cas-là, si on veut fonder une réflexion scientifique qui tient la route, pouvoir citer la ressource dans un article ou tout simplement en garder la trace, on a besoin de l’archiver.

Voici quelques méthodes qui peuvent être utilisées pour ce faire, de la plus simple à la plus complexe.

1. Zotero : vous utilisez déjà cet outil pour vos références bibliographiques, vous avez déjà installé une extension sur votre navigateur préféré pour sauvegarder en un clic une référence. Si vous le faites sur une page web lambda, le mode « snapshot » archive une copie de la page et vous pourrez la rejouer plus tard. [Edit] Cette méthode peut néanmoins finir par peser lourd sur votre disque dur ; heureusement il existe une extension Memento qui permet de récupérer dans Zotero un lien vers la Wayback Machine d’Internet Archive.

2. Le service Save Page Now d’Internet Archive : également doté de son extension, il vous permet non seulement de chercher une copie archivée d’une page si vous tombez sur une erreur 404, mais aussi d’archiver en 1 clic la page que vous consultez (et si besoin, tous ses liens sortants) dans la Wayback Machine. Cela évite d’encombrer votre disque dur, vous garantit de pouvoir la retrouver, peut être utile à d’autres gens et en plus, il y a plein d’autres fonctionnalités vraiment cool comme la cartographie de site…

3. Les outils de WebRecorder.io : derrière ce service, une communauté d’ingénieurs (dont Ilya Kremer) qui travaillait au départ sur l’idée de « browser-based archiving » c’est à dire d’archiver les sites en se basant sur la navigation d’un internaute. Plus besoin de cliquer sur les pages une à une, un outil comme archiveweb.page (toujours sous la forme d’une extension) vous permet d’enregistrer toute une session de navigation et de l’éditer après. Il y a aussi l’outillage nécessaire pour constituer une archive web avec Python pour les plus aventureux.

4. Hyphe : outil développé par le MediaLab de Sciences Po, il permet de constituer de véritables corpus web. Là, on entre quand même dans les outils plus spécifiques pour les chercheurs qui utilisent le web comme source de façon plus systématique.

5. Le BnF DataLab : si vraiment le web est votre sujet de recherche ou votre principale source, vous finirez sans doute par vous tourner vers des dispositifs plus institutionnels qui permettent d’entrer dans des partenariats avec les organismes en charge du dépôt légal de l’Internet : la BnF et l’Ina. Ceux-ci proposent des outils spécifiques pour naviguer dans les pétaoctets d’archives web amassées depuis plusieurs dizaines d’années, par exemple – sur certains corpus – la recherche plein texte, l’analyse de la tendance d’un terme ou des métadonnées et statistiques diverses.
Dans le DataLab, suite aux travaux conduits dans le projet ResPaDon, il est possible d’utiliser Hyphe pour explorer le web archivé par la BnF. Certains projets accueillis en partenariat peuvent aussi bénéficier de collectes « à la demande », pour lesquelles bibliothécaires et chercheurs vont s’associer pour constituer ensemble un corpus pérenne à des fins de recherche.

Il y en a donc pour tous les goûts, y compris pour les webmestres qui peuvent par exemple utiliser le service Arquivo404 pour proposer sur leur site un lien vers les archives web du Portugal quand la page est introuvable (pourquoi le Portugal me direz-vous, eh bien cette archive partage avec Internet Archive la caractéristique d’être en accès ouvert, là où la plupart des archives web institutionnelles, soumises aux conditions d’accès du dépôt légal, sont consultables uniquement sur place dans les établissements).

Si le sujet vous intéresse, on se retrouve le 13 mars à la BnF, ou à défaut sur Twitter et/ou Mastodon (oui c’est nouveau !) pour de nouvelles aventures avec les archives web.

Papoter avec Molière ?

Publié le 05/10/2022 par manuefig

Utiliser la création artistique pour relever un défi scientifique et technique tout en nous plaçant face à des interrogations très humaines, tel était l’objectif du projet Litté_bot, financé par l’EUR ArTec. Le questionnement de départ peut paraître simple : si on entraînait une IA à partir des textes de Molière, pourrait-on engager virtuellement une conversation avec le dramaturge ou un de ses personnages ? Dans les faits, la création d’un agent conversationnel – ou chatbot – capable de soutenir un tel échange pose beaucoup de questions, parmi lesquelles la volumétrie (insuffisante !) du corpus de départ, l’imitation de la langue du XVIIe siècle, l’équilibre à trouver entre système ouvert ou fermé, ou encore le choix du bon modèle d’entraînement.

Finalement, c’est le personnage de Dom Juan qui a été mis en scène : vous pouvez vous entretenir avec lui dans le BOT°PHONE, un dispositif placé à la sortie de l’exposition Molière sur le site Richelieu de la BnF jusqu’au 15 janvier.

Mais si vous préférez le tester depuis votre salon, vous pouvez également accéder au dispositif expérimental en ligne.

Au final, ce qui est sans doute le plus fascinant, c’est d’écouter Rocio Berenguer, l’artiste qui est à l’origine du dispositif, expliquer comment elle a imaginé l’expérience et en donner son interprétation : « dans n’importe quelle situation, n’importe quel échange, en tant qu’humains, on va générer du sens. (…) C’est une capacité magnifique, une puissance à laquelle on ne donne pas assez d’importance. En fait, j’aimerais que l’échange avec une machine nous permette de nous rendre compte de la puissance de nos capacités cognitives à nous. »

Je me suis intéressée au projet dans le cadre de la feuille de route IA de la BnF, qui pose la question du rapport entre l’humain et la machine comme une problématique centrale. Pour en savoir plus, notamment sur les enjeux techniques du projet, vous pouvez consulter l’article sur le carnet Hypothèse de la BnF, l’interview de Rocio Berenguer dans L’ADN, ou encore regarder la présentation d’Anna Pappa pour AI4LAM. Merci à Arnaud L. pour les références :-)

Un blog sur Internet, la bibliothéconomie et la confiture de figues

Matérialité des réseaux et écologie : imaginaire de la ruine

Avant le web (et à côté)

Le berceau du web

Des émotions, toujours des émotions !

Pour finir, un peu de théorie

Quelques références

Mes sujets et projets de recherche

Conférences, journées d’études, colloques…

Publications

Activités diverses

« Data is land »

« Langage is culture »

L’an 2 après Kraken

L’importance d’évaluer

Perspectives spatio-temporelles

Un peu d’historique et de contexte (on ne se refait pas)

Qu’est-ce que le RAG et à quoi peut-il servir ?

Comment ça marche ?

Des exemples ?

Mes sujets et projets de recherche

Conférences, journées d’études, colloques…

Publications

Différents types de modèles

Différents systèmes de gestion de base de données

L’arbre de décision

Un enjeu : embarquer !

Phase 1 : comprendre

Quel projet IA êtes-vous ?

Le voir pour le croire

Phase 2 : expérimenter

Prompt engineering et métadonnées

Chatbots et archives

Transcrire et annoter les ressources audiovisuelles

Phase 3 : implémenter

La technologie et l’humain

En guise de conclusion, un plan d’action