Les fantastiques futurs de l’intelligence artificielle

La semaine dernière, j’ai eu la chance d’être invitée à me rendre à Stanford pour participer à la conférence Fantastic Futures, 2e du nom, un événement dont l’objectif était de faire émerger une communauté autour de l’intelligence artificielle pour les archives, les bibliothèques et les musées.

Spoiler : la communauté s’appelle AI4LAM, elle a un site web, des chaînes Slack et un groupe sur Google. Sinon, pour revoir la conférence, c’est par ici.

Cela ne vous aura pas échappé : l’intelligence artificielle est à la mode. On en parle à la radio, dans les journaux, des députés au style vestimentaire peu commun rédigent des rapports pour le Président de la République… et dans la communauté professionnelle, nous suivons le mouvement : voir par exemple la journée d’études du congrès de l’ADBU 2019 ou encore celle organisée hier à la BnF par l’ADEMEC (vidéos bientôt en ligne). Pourtant, si l’IA était une boîte de gâteaux, on pourrait écrire dessus « L’intelligence artificielle, innovante depuis 1956″…

Pour ma part, le sujet m’est pour ainsi dire tombé dessus, pour la 1e fois, quand on m’a invitée à participer aux Assises numériques du SNE en novembre 2017. Alors que nous préparions notre table-ronde, j’étais un peu dubitative sur ma participation, et j’ai été jusqu’à dire que de mon point de vue, la BnF n’utilisait pas encore en production de technologies d’intelligence artificielle. L’un des autres participants m’a alors dit « mais si ! l’OCR c’est déjà de l’intelligence artificielle ! » Et finalement, même si tout dépend de la définition (plus ou moins précise) que l’on en donne, ce n’est pas faux. Comme le disait Joanna Bryson à Stanford mercredi dernier, l’intelligence c’est la capacité à transformer une perception en action…

Que de chemin parcouru, pour moi, depuis 2017 !

En 2018, les explications de Yann Le Cun ont éclairé ma lanterne sur cette notion d’intelligence, de perception et ce qu’on appelle l’apprentissage (profond ou non, par machine ou pas !) L’exemple du Perceptron, sorte d’ancêtre de l’OCR, m’a permis de comprendre que mon manque supposé de familiarité avec l’intelligence artificielle relevait en fait d’un malentendu. Comme pour beaucoup de gens, l’intelligence artificielle évoquait pour moi une machine s’efforçant d’adopter des comportements plus ou moins proches de l’humain, l’un de ces comportements étant la capacité à « apprendre » comme le suggère le terme de « machine learning ».

Je me suis donc référée à Jean-Gabriel Ganascia pour tenter de désamorcer ces idées reçues et j’ai appris dans son opus daté de 2007 que la discipline informatique connue sous le nom d’ « intelligence artificielle » vise non pas à créer une machine dotée de toutes les facultés intellectuelles de l’humain, mais à reproduire de façon logique et mathématique certaines de ces facultés, de manière ciblée. Il y a autant de différence entre l’intelligence artificielle et l’humain qu’entre passer un OCR sur un texte et le lire…

Pendant que je plongeais dans ces découvertes, l’IA entrait bel et bien à la BnF, par la petite porte, celle de Gallica studio. Un peu plus tard, à la conférence Europeana Tech je (re)découvrais les rouages du prototype GallicaPix et obtenais encore d’autres exemples et explications avant d’en remettre une couche à LIBER 2018 (la répétition est l’essence de la pédagogie, n’est-ce pas…). Enfin, la première conférence Fantastic Futures était organisée en décembre 2018 à Oslo et inscrivait pour de bon l’IA sur notre agenda stratégique, à travers deux projets, l’un portant sur la fouille d’images dans Gallica dans la continuité de GallicaPix et l’autre sur la mise à disposition de collections-données pour les chercheurs dans le cadre du projet Corpus. J’ai même fini par intervenir sur le sujet dans un colloque organisé en octobre par les archives diplomatiques.

Me revoici donc en décembre 2019 à Stanford, prête à plonger dans le grand bain… Qu’ai-je retenu de ces 3 jours de conférence ?

D’une façon générale, cet événement fait apparaître l’idée que le sujet est encore assez jeune dans la communauté des bibliothèques, archives et musées. Alors qu’il existe une conviction solide et partagée que l’IA va transformer en profondeur la société, les méthodes de travail, et avoir un impact significatif sur nos institutions, la mise en pratique reste encore largement expérimentale.

Trois types d’acteurs ont néanmoins proposé une vision concrète, voire des réalisations effectives :

  • les acteurs de l’industrie, qui font état d’un déploiement déjà très avancé dans différents secteurs,
  • les acteurs de la recherche, qui multiplient les projets autour de données diverses, notamment celles des collections spécialisées qui se prêtent tout particulièrement à de telles expérimentations
  • enfin dans le domaine de la création artistique, à travers un artiste qui utilise l’IA dans le cadre d’une démarche d’interrogation sur la société et les rapports humains.

En termes de projets, deux types d’initiatives sont observables dans le domaine de l’IA pour les LAM.

En premier lieu, celles qui visent à mettre des données et collections numériques à disposition des chercheurs à des fins de fouille de texte et de données, en utilisant le machine learning. On peut citer par exemple le Lab de la Bibliothèque du Congrès qui a récemment obtenu un financement de la Mellon pour une expérimentation à grande échelle dans ce domaine. Certains de ces projets conduisent à développer des outils permettant aux chercheurs de s’approprier les modèles d’apprentissage ou des interfaces innovantes comme PixPlot, développé par le laboratoire d’humanités numériques de Yale, qui permet de manipuler des corpus de plusieurs milliers d’images que l’IA regroupe par similarité.

À l’exemple du prototype « Nancy » de la Bibliothèque Nationale de Norvège, d’autres projets visent en revanche l’automatisation de tâches actuellement réalisées manuellement par les bibliothécaires. Toutefois, Nancy reste une initiative expérimentale qui, si elle démontre efficacement les apports potentiels de l’IA pour le traitement des collections, serait très difficile voire impossible à industrialiser telle quelle sur la production courante. De même, les projets de traitement des collections du IA studio de la bibliothèque de Stanford, l’un d’eux portant sur une collection de romans du 19e s. numérisés mais non catalogués, s’attachent au traitement d’un corpus clos et bien défini et sont en réalité hybrides avec la catégorie précédente, car ils mobilisent également des chercheurs au travers de projets ciblés.

Pour finir, je retiendrai un certain nombre de thématiques phares qui sont revenues à plusieurs reprises, aussi bien dans la conférence elle-même que dans les workshops ou la « unconference » :

  • Les questions éthiques, bien connues en dehors de notre communauté mais abordées ici avec l’idée que des institutions publiques comme les bibliothèques pourraient devenir un acteur important pour porter cet enjeu au regard de l’industrie. L’idée de doter les projets d’un “plan de gestion éthique” comme on a des “plans de gestion des données” a émergé pendant le workshop que je co-animais.
  • Les enjeux de qualité des données, avec là aussi l’idée que les bibliothèques ont un savoir-faire qu’elles pourraient mobiliser pour apporter à l’industrie des jeux de données de qualité pour l’entraînement du machine learning.
  • Le développement d’interfaces graphiques, nécessaires pour comprendre les IA, les manipuler et interpréter les résultats (cf. PixPlot ci-dessus)
  • La formation, avec notamment l’exemple finlandais : l’IA est un enjeu global de société et chacun devrait pouvoir se former pour comprendre ce dont il s’agit. A cette fin, un cours en ligne a été mis en place, visant 1% de la population du pays. Une extension internationale du projet est en cours, avec sa traduction dans les différentes langues de l’Union Européenne.
  • Enfin les outils, données et modèles, avec un enjeu d’échanges et de mutualisation au sein de la communauté et un focus sur les documents spécialisés (manuscrits, images et cartes notamment, mais aussi son et vidéo). Le lien de ces problématiques avec IIIF a été constamment mis en avant.

Nous nous sommes quittés après 3 jours riches et intenses sur l’annonce de la création de la communauté AI4LAM que j’ai mentionnée plus haut. Et mon petit doigt me dit que mes futurs n’ont pas fini d’être fantastiques… Prochaine étape le 3 février dans le cadre du séminaire DHAI de l’ENS, où Jean-Philippe et moi présenterons les deux initiatives phares de la BnF dans ce domaine.