Papoter avec Molière ?

Utiliser la création artistique pour relever un défi scientifique et technique tout en nous plaçant face à des interrogations très humaines, tel était l’objectif du projet Litté_bot, financé par l’EUR ArTec. Le questionnement de départ peut paraître simple : si on entraînait une IA à partir des textes de Molière, pourrait-on engager virtuellement une conversation avec le dramaturge ou un de ses personnages ? Dans les faits, la création d’un agent conversationnel – ou chatbot – capable de soutenir un tel échange pose beaucoup de questions, parmi lesquelles la volumétrie (insuffisante !) du corpus de départ, l’imitation de la langue du XVIIe siècle, l’équilibre à trouver entre système ouvert ou fermé, ou encore le choix du bon modèle d’entraînement.

Finalement, c’est le personnage de Dom Juan qui a été mis en scène : vous pouvez vous entretenir avec lui dans le BOT°PHONE, un dispositif placé à la sortie de l’exposition Molière sur le site Richelieu de la BnF jusqu’au 15 janvier.

Mais si vous préférez le tester depuis votre salon, vous pouvez également accéder au dispositif expérimental en ligne.

Au final, ce qui est sans doute le plus fascinant, c’est d’écouter Rocio Berenguer, l’artiste qui est à l’origine du dispositif, expliquer comment elle a imaginé l’expérience et en donner son interprétation : « dans n’importe quelle situation, n’importe quel échange, en tant qu’humains, on va générer du sens. (…) C’est une capacité magnifique, une puissance à laquelle on ne donne pas assez d’importance. En fait, j’aimerais que l’échange avec une machine nous permette de nous rendre compte de la puissance de nos capacités cognitives à nous. »

Je me suis intéressée au projet dans le cadre de la feuille de route IA de la BnF, qui pose la question du rapport entre l’humain et la machine comme une problématique centrale. Pour en savoir plus, notamment sur les enjeux techniques du projet, vous pouvez consulter l’article sur le carnet Hypothèse de la BnF, l’interview de Rocio Berenguer dans L’ADN, ou encore regarder la présentation d’Anna Pappa pour AI4LAM. Merci à Arnaud L. pour les références :-)

Publicité

Le grenier

Oh trop fou ! Ce ne serait pas la clef de mon blog, coincée là entre une soutenance de thèse, une pandémie et un gros tas de bazar ? Elle est un peu rouillée, je me demande si elle marche toujours…

(Essuie la clef avec son écharpe et la glisse dans la serrure.)

Bah ! Pouah ! Kof kof kof ! Y en a de la poussière là-dedans !

(Écarte quelques toiles d’araignées et attrape le premier papier qui traîne.)

Oh ! Trop drôle, mon dernier billet ! Je parlais de la conférence Fantastic futures à Stanford… je faisais un teasing de dingue, j’y croyais vraiment, que j’allais organiser une conférence internationale en décembre 2020, ah ah ! Bon au final elle a bien eu lieu… avec un an de retard. Et puis c’était pas vraiment comme les conférences du monde d’avant, il faut bien le reconnaître… mais c’était chouette. Il nous reste les vidéos et les supports. Et le super article de Céline dans le BBF. Bon c’est sûr, plein de gens n’ont pas pu venir à cause de la crise, tout ça, mais on va jouer les prolongations pendant les community calls d’ai4lam les 15 février et 15 mars…

Tiens c’est quoi ce truc ?

(Ouvre un grand coffre rempli de paperasse.)

Oh !!! Ma thèse ! Enfin je veux dire, mon doctorat sur travaux. « Le numérique en bibliothèque : naissance d’un patrimoine : l’exemple de la Bibliothèque nationale de France (1997-2019). » Rien que ça. Genre, il y a deux fois deux points dans titre, je ne doute de rien, moi… Heureusement qu’ils n’interdisent pas les titres à rallonge pour mettre en ligne dans Hal, sinon j’aurais l’air maligne ! N’empêche, c’était sympa cette histoire d’émotions patrimoniales. J’en avais même fait un article dans la Revue de la BnF. Et puis la soutenance… une vraie soutenance dans la salle Léopold Delisle de l’Ecole des chartes, en présentiel comme on dit maintenant. Et sans masques ! On a revécu toute l’histoire de la BnF sur les 25 dernières années… d’ailleurs ça a atterri dans le livre sur l’Histoire de la Bibliothèque nationale de France qui sort cette année à l’occasion de la réouverture de Richelieu. Que des bons souvenirs, quoi.

(Se remet à fouiller à droite et à gauche.)

Il doit bien y avoir encore quelques trucs intéressants là-dedans… L’ouverture du DataLab en octobre 2021… Le Schéma numérique 2020 de la BnF… La recette du pain d’épices… Mais où est ce fichu… Ah ! Le voilà ! Il n’est pas beau, ce numéro de Chroniques spécial intelligence artificielle ? Si j’avais su il y a deux ans que cette technologie prendrait une telle place dans ma vie… En tout cas, les illustrations sont magiques et il contient un joli portrait professionnel de votre serviteuse. Cela fait quand même plus sérieux que le selfie pris dans mon bureau pour illustrer mon interview sur Europeana Pro ! Ah, le plaisir de fouiller dans les greniers pour retrouver de vieilles photos ! Il n’y a rien de tel.

Tiens, voilà autre chose…

(S’approche d’un mur couvert de post-its à moitié décollés.)

Mes challenges personnels pour 2022, tout un programme. « Arrêter de fumer… Publier ma thèse… Voyager au Danemark ou en Irlande… » T’as raison, l’espoir fait vivre. Et tiens, « Ecrire sur mon blog » ! Eh bien voilà au moins une case que je peux cocher. Restons positifs :-) (mais pas au Covid >_<)

Les fantastiques futurs de l’intelligence artificielle

La semaine dernière, j’ai eu la chance d’être invitée à me rendre à Stanford pour participer à la conférence Fantastic Futures, 2e du nom, un événement dont l’objectif était de faire émerger une communauté autour de l’intelligence artificielle pour les archives, les bibliothèques et les musées.

Spoiler : la communauté s’appelle AI4LAM, elle a un site web, des chaînes Slack et un groupe sur Google. Sinon, pour revoir la conférence, c’est par ici.

Cela ne vous aura pas échappé : l’intelligence artificielle est à la mode. On en parle à la radio, dans les journaux, des députés au style vestimentaire peu commun rédigent des rapports pour le Président de la République… et dans la communauté professionnelle, nous suivons le mouvement : voir par exemple la journée d’études du congrès de l’ADBU 2019 ou encore celle organisée hier à la BnF par l’ADEMEC (vidéos bientôt en ligne). Pourtant, si l’IA était une boîte de gâteaux, on pourrait écrire dessus « L’intelligence artificielle, innovante depuis 1956″…

Pour ma part, le sujet m’est pour ainsi dire tombé dessus, pour la 1e fois, quand on m’a invitée à participer aux Assises numériques du SNE en novembre 2017. Alors que nous préparions notre table-ronde, j’étais un peu dubitative sur ma participation, et j’ai été jusqu’à dire que de mon point de vue, la BnF n’utilisait pas encore en production de technologies d’intelligence artificielle. L’un des autres participants m’a alors dit « mais si ! l’OCR c’est déjà de l’intelligence artificielle ! » Et finalement, même si tout dépend de la définition (plus ou moins précise) que l’on en donne, ce n’est pas faux. Comme le disait Joanna Bryson à Stanford mercredi dernier, l’intelligence c’est la capacité à transformer une perception en action…

Que de chemin parcouru, pour moi, depuis 2017 !

En 2018, les explications de Yann Le Cun ont éclairé ma lanterne sur cette notion d’intelligence, de perception et ce qu’on appelle l’apprentissage (profond ou non, par machine ou pas !) L’exemple du Perceptron, sorte d’ancêtre de l’OCR, m’a permis de comprendre que mon manque supposé de familiarité avec l’intelligence artificielle relevait en fait d’un malentendu. Comme pour beaucoup de gens, l’intelligence artificielle évoquait pour moi une machine s’efforçant d’adopter des comportements plus ou moins proches de l’humain, l’un de ces comportements étant la capacité à « apprendre » comme le suggère le terme de « machine learning ».

Je me suis donc référée à Jean-Gabriel Ganascia pour tenter de désamorcer ces idées reçues et j’ai appris dans son opus daté de 2007 que la discipline informatique connue sous le nom d’ « intelligence artificielle » vise non pas à créer une machine dotée de toutes les facultés intellectuelles de l’humain, mais à reproduire de façon logique et mathématique certaines de ces facultés, de manière ciblée. Il y a autant de différence entre l’intelligence artificielle et l’humain qu’entre passer un OCR sur un texte et le lire…

Pendant que je plongeais dans ces découvertes, l’IA entrait bel et bien à la BnF, par la petite porte, celle de Gallica studio. Un peu plus tard, à la conférence Europeana Tech je (re)découvrais les rouages du prototype GallicaPix et obtenais encore d’autres exemples et explications avant d’en remettre une couche à LIBER 2018 (la répétition est l’essence de la pédagogie, n’est-ce pas…). Enfin, la première conférence Fantastic Futures était organisée en décembre 2018 à Oslo et inscrivait pour de bon l’IA sur notre agenda stratégique, à travers deux projets, l’un portant sur la fouille d’images dans Gallica dans la continuité de GallicaPix et l’autre sur la mise à disposition de collections-données pour les chercheurs dans le cadre du projet Corpus. J’ai même fini par intervenir sur le sujet dans un colloque organisé en octobre par les archives diplomatiques.

Me revoici donc en décembre 2019 à Stanford, prête à plonger dans le grand bain… Qu’ai-je retenu de ces 3 jours de conférence ?

D’une façon générale, cet événement fait apparaître l’idée que le sujet est encore assez jeune dans la communauté des bibliothèques, archives et musées. Alors qu’il existe une conviction solide et partagée que l’IA va transformer en profondeur la société, les méthodes de travail, et avoir un impact significatif sur nos institutions, la mise en pratique reste encore largement expérimentale.

Trois types d’acteurs ont néanmoins proposé une vision concrète, voire des réalisations effectives :

  • les acteurs de l’industrie, qui font état d’un déploiement déjà très avancé dans différents secteurs,
  • les acteurs de la recherche, qui multiplient les projets autour de données diverses, notamment celles des collections spécialisées qui se prêtent tout particulièrement à de telles expérimentations
  • enfin dans le domaine de la création artistique, à travers un artiste qui utilise l’IA dans le cadre d’une démarche d’interrogation sur la société et les rapports humains.

En termes de projets, deux types d’initiatives sont observables dans le domaine de l’IA pour les LAM.

En premier lieu, celles qui visent à mettre des données et collections numériques à disposition des chercheurs à des fins de fouille de texte et de données, en utilisant le machine learning. On peut citer par exemple le Lab de la Bibliothèque du Congrès qui a récemment obtenu un financement de la Mellon pour une expérimentation à grande échelle dans ce domaine. Certains de ces projets conduisent à développer des outils permettant aux chercheurs de s’approprier les modèles d’apprentissage ou des interfaces innovantes comme PixPlot, développé par le laboratoire d’humanités numériques de Yale, qui permet de manipuler des corpus de plusieurs milliers d’images que l’IA regroupe par similarité.

À l’exemple du prototype « Nancy » de la Bibliothèque Nationale de Norvège, d’autres projets visent en revanche l’automatisation de tâches actuellement réalisées manuellement par les bibliothécaires. Toutefois, Nancy reste une initiative expérimentale qui, si elle démontre efficacement les apports potentiels de l’IA pour le traitement des collections, serait très difficile voire impossible à industrialiser telle quelle sur la production courante. De même, les projets de traitement des collections du IA studio de la bibliothèque de Stanford, l’un d’eux portant sur une collection de romans du 19e s. numérisés mais non catalogués, s’attachent au traitement d’un corpus clos et bien défini et sont en réalité hybrides avec la catégorie précédente, car ils mobilisent également des chercheurs au travers de projets ciblés.

Pour finir, je retiendrai un certain nombre de thématiques phares qui sont revenues à plusieurs reprises, aussi bien dans la conférence elle-même que dans les workshops ou la « unconference » :

  • Les questions éthiques, bien connues en dehors de notre communauté mais abordées ici avec l’idée que des institutions publiques comme les bibliothèques pourraient devenir un acteur important pour porter cet enjeu au regard de l’industrie. L’idée de doter les projets d’un “plan de gestion éthique” comme on a des “plans de gestion des données” a émergé pendant le workshop que je co-animais.
  • Les enjeux de qualité des données, avec là aussi l’idée que les bibliothèques ont un savoir-faire qu’elles pourraient mobiliser pour apporter à l’industrie des jeux de données de qualité pour l’entraînement du machine learning.
  • Le développement d’interfaces graphiques, nécessaires pour comprendre les IA, les manipuler et interpréter les résultats (cf. PixPlot ci-dessus)
  • La formation, avec notamment l’exemple finlandais : l’IA est un enjeu global de société et chacun devrait pouvoir se former pour comprendre ce dont il s’agit. A cette fin, un cours en ligne a été mis en place, visant 1% de la population du pays. Une extension internationale du projet est en cours, avec sa traduction dans les différentes langues de l’Union Européenne.
  • Enfin les outils, données et modèles, avec un enjeu d’échanges et de mutualisation au sein de la communauté et un focus sur les documents spécialisés (manuscrits, images et cartes notamment, mais aussi son et vidéo). Le lien de ces problématiques avec IIIF a été constamment mis en avant.

Nous nous sommes quittés après 3 jours riches et intenses sur l’annonce de la création de la communauté AI4LAM que j’ai mentionnée plus haut. Et mon petit doigt me dit que mes futurs n’ont pas fini d’être fantastiques… Prochaine étape le 3 février dans le cadre du séminaire DHAI de l’ENS, où Jean-Philippe et moi présenterons les deux initiatives phares de la BnF dans ce domaine.