Le grenier

Oh trop fou ! Ce ne serait pas la clef de mon blog, coincée là entre une soutenance de thèse, une pandémie et un gros tas de bazar ? Elle est un peu rouillée, je me demande si elle marche toujours…

(Essuie la clef avec son écharpe et la glisse dans la serrure.)

Bah ! Pouah ! Kof kof kof ! Y en a de la poussière là-dedans !

(Écarte quelques toiles d’araignées et attrape le premier papier qui traîne.)

Oh ! Trop drôle, mon dernier billet ! Je parlais de la conférence Fantastic futures à Stanford… je faisais un teasing de dingue, j’y croyais vraiment, que j’allais organiser une conférence internationale en décembre 2020, ah ah ! Bon au final elle a bien eu lieu… avec un an de retard. Et puis c’était pas vraiment comme les conférences du monde d’avant, il faut bien le reconnaître… mais c’était chouette. Il nous reste les vidéos et les supports. Et le super article de Céline dans le BBF. Bon c’est sûr, plein de gens n’ont pas pu venir à cause de la crise, tout ça, mais on va jouer les prolongations pendant les community calls d’ai4lam les 15 février et 15 mars…

Tiens c’est quoi ce truc ?

(Ouvre un grand coffre rempli de paperasse.)

Oh !!! Ma thèse ! Enfin je veux dire, mon doctorat sur travaux. « Le numérique en bibliothèque : naissance d’un patrimoine : l’exemple de la Bibliothèque nationale de France (1997-2019). » Rien que ça. Genre, il y a deux fois deux points dans titre, je ne doute de rien, moi… Heureusement qu’ils n’interdisent pas les titres à rallonge pour mettre en ligne dans Hal, sinon j’aurais l’air maligne ! N’empêche, c’était sympa cette histoire d’émotions patrimoniales. J’en avais même fait un article dans la Revue de la BnF. Et puis la soutenance… une vraie soutenance dans la salle Léopold Delisle de l’Ecole des chartes, en présentiel comme on dit maintenant. Et sans masques ! On a revécu toute l’histoire de la BnF sur les 25 dernières années… d’ailleurs ça a atterri dans le livre sur l’Histoire de la Bibliothèque nationale de France qui sort cette année à l’occasion de la réouverture de Richelieu. Que des bons souvenirs, quoi.

(Se remet à fouiller à droite et à gauche.)

Il doit bien y avoir encore quelques trucs intéressants là-dedans… L’ouverture du DataLab en octobre 2021… Le Schéma numérique 2020 de la BnF… La recette du pain d’épices… Mais où est ce fichu… Ah ! Le voilà ! Il n’est pas beau, ce numéro de Chroniques spécial intelligence artificielle ? Si j’avais su il y a deux ans que cette technologie prendrait une telle place dans ma vie… En tout cas, les illustrations sont magiques et il contient un joli portrait professionnel de votre serviteuse. Cela fait quand même plus sérieux que le selfie pris dans mon bureau pour illustrer mon interview sur Europeana Pro ! Ah, le plaisir de fouiller dans les greniers pour retrouver de vieilles photos ! Il n’y a rien de tel.

Tiens, voilà autre chose…

(S’approche d’un mur couvert de post-its à moitié décollés.)

Mes challenges personnels pour 2022, tout un programme. « Arrêter de fumer… Publier ma thèse… Voyager au Danemark ou en Irlande… » T’as raison, l’espoir fait vivre. Et tiens, « Ecrire sur mon blog » ! Eh bien voilà au moins une case que je peux cocher. Restons positifs :-) (mais pas au Covid >_<)

Publicité

Reblog : les technos du Web sémantique ont-elles tenu leurs promesses ?

Il y a quelques années, quand j’ai proposé à Gautier et Antoine de publier au Cercle de la librairie une synthèse de ce que nous avions appris en pratiquant avec ces technologies, mon objectif était de stabiliser nos connaissances dans un manuel, afin de les rendre réutilisables. C’est ainsi qu’est né Le web sémantique en bibliothèque, le livre, fin 2013. J’espérais aussi qu’on pourrait arrêter de se répéter en formation et que cela nous aiderait à passer à autre chose…

Je ne pensais pas si bien dire, puisque dès l’année suivante, j’écrivais « qu’il ne serait ni possible, ni utile de former tous les catalogueurs ou tous les bibliothécaires au Web sémantique« . Nous avons poursuivi cette réflexion au fil des conférences et formations, adaptant petit à petit notre discours à un nouveau constat : les technologies du Web sémantique ne répondraient pas à tous nos espoirs, et devaient trouver leur juste place dans le paysage de la donnée d’une manière plus générale. Un constat parfois amer, quand il s’agissait d’y renoncer dans le contexte de la production, parfois plein d’espoir quand les grands acteurs du web les intégraient dans leur stratégie d’interopérabilité.

Gautier revient aujourd’hui sur cette réflexion avec une somme en 4 articles, dont la lecture est indispensable pour qui veut comprendre l’évolution de notre pensée ces 5 dernières années s’agissant de cette technologie que nous avons longtemps mise en avant :

Le Web sémantique nous aide-t-il vraiment à améliorer la visibilité des ressources patrimoniales sur le Web ? Pourquoi le Linked Entreprise Data n’a-t-il pas révolutionné la conception des systèmes d’information ? Dans quels cas l’investissement dans un mapping vers RDF en vaut-il la peine ? Comment peut-on continuer à défendre les modèles orientés entités si on ne veut plus les implémenter en RDF ? Vous trouverez réponse à ces questions et bien plus sur Les Petites Cases.

Vous l’avez compris, je souscris largement aux conclusions qu’il présente et que nous partageons dans notre cadre professionnel, dans les formations que nous assurons ensemble ou chacun de notre côté, et dans notre salon ;-) Mais j’apporterais peut-être quand même pour ma part une nuance ou un complément d’information.

Dans son 2e billet, Gautier revient sur les limites d’OAI-PMH et dans sa conclusion, il remet en cause l’idée de décentralisation en arguant qu’elle est illusoire en l’état actuel de la technologie. L’OAI-PMH, malgré ses faiblesses, est un modèle qui fonctionne bien parce que justement, il procède par recentralisation des données qui ont été moissonnées. Or, la communauté patrimoniale à l’heure actuelle se focalise sur le développement d’un standard qui vise à réaliser la décentralisation des bibliothèques numériques en termes de contenus : IIIF. Dans une démarche caractéristique de la manière dont la communauté appréhendait le Web sémantique il y a 5 ans, IIIF utilise certains éléments de la technologie – les URI, le JSON-LD – sans se réclamer du Web sémantique ou du Linked Data. Pour Gautier, le choix de JSON-LD est anecdotique et relève d’un espoir qu’on avait à l’époque : que ce genre de détail ferait « cheval de Troie » pour installer la technologie. Pour moi, il témoigne d’une forme de maturité qui replace les briques de la techno à leur juste place dans un ensemble plus large. Néanmoins, le problème est toujours le même : pour exploiter les données, même avec IIIF, il faut rencentraliser les métadonnées. Et pour les recentraliser, il faut qu’elles soient homogènes ce qui exige soit de se mettre d’accord sur une syntaxe commune quelle qu’elle soit, soit de faire des conversions ou mappings…

En fin de compte, ce détail montre que la communauté patrimoniale est encore en train de réfléchir à son modèle d’agrégation des données. L’interopérabilité reste le principal (l’unique ?) cas d’usage du Web sémantique, et les portails ont encore de beaux jours devant eux. Nous garderons donc un œil attentif dans cette direction…

Plongée dans les humanités numériques à Berlin

Cette année, mes pérégrinations estivales ne m’ont pas conduite à l’IFLA en Pologne (coucou à ceux qui y sont !) mais « seulement » à l’une des conférences satellites, organisée par la section des Bibliothèques académiques et de recherche conjointement avec DARIAH et LIBER. Cette conférence, qui s’est donc tenue à Berlin du 15 au 17 août, avait pour thème Digital Humanities – Opportunities and Risks: Connecting Libraries and Research et j’étais invitée à présenter l’une des deux « keynotes », l’occasion pour moi de parler du projet Corpus qui est l’un de mes centres de préoccupations phares du moment.

iflaDH

La conférence a commencé par une intervention introductive de Toma Tasovac, directeur du Centre pour les Humanités Numériques de Belgrade à qui a été posée la difficile question : comment peut-on définir les humanités numériques ? Il répond : avec réticence. Les humanités numériques ne sont pas une discipline, mais une communauté de pratiques.

Les présentations de la journée suivante ont brillamment illustré la diversité des pratiques en question, de l’organisation d’un éditathon dans Wikipédia à la création d’une collection d’archives web en histoire de l’art, de l’exploration approfondie d’un poème d’Apollinaire à la création d’un site collaboratif documentant le patrimoine architectural brésilien. Dans ma propre présentation, j’ai donné plusieurs exemples de projets dans lesquels la BnF a été impliquée, qui posent pour la bibliothèque la question de la mise à disposition de corpus numériques massifs dans le contexte de la science numérique (digital scholarship – expression que je trouve plus inclusive que celle d’humanités numériques, car certains des projets sur lesquels nous travaillons ne viennent pas des humanités). Ruth Wallach est revenue sur cette question de savoir « qui en est, qui n’en est pas » en citant Stephen Ramsay : sommes-nous tous des « edupunks » qui faisons des humanités numériques à la mode artisanale, avec les moyens du bord ?

Cependant, en tant que satellite de l’IFLA, cette conférence ne s’intéressait pas aux DH en soi mais en tant qu’elles questionnent le rôle des bibliothèques. Dans sa présentation, Toma Tasovac a appelé de ses vœux des bibliothèques numériques qui offriraient un accès aux textes non pas comme des objets statiques, mais sous la forme de services et de workflow, permettant non seulement de les utiliser de façon flexible via des API mais aussi de reverser les enrichissements réalisés par les chercheurs.

Sur ce dernier point, il prenait l’exemple de l’OCR en rappelant qu’il « ne faut pas avoir honte d’un mauvais OCR » mais qu’il est par contre important de permettre aux chercheurs de le corriger.

Dans ce contexte, les bibliothèques numériques sont vues comme des infrastructures qui doivent permettre aussi bien la lecture rapprochée que distante (close reading, distant reading). Elles partagent avec les DH l’enjeu de l’interopérabilité et de la communication. Certaines données peuvent être d’accès restreint (Toma utilise l’excellent euphémisme shy data) mais il est important d’expliciter les conditions de leur usage par les chercheurs : c’est le but de la future « Charte de réutilisation des données culturelles » que DARIAH et Europeana sont en train d’élaborer. Si ce sujet vous intéresse, je vous engage à répondre au sondage en cours sur les principes de la charte.

S’est également posée la question de savoir quelle formation il serait nécessaire de donner aux bibliothécaires chargés de ces questions. Lotte Wilms, qui travaille au Lab de la KB (Pays-Bas), a présenté un programme de formation sur 5 jours, qui se tiendra à la rentrée, et dont les composants essentiels rappellent fortement ce qui pourrait être la formation de base d’un data librarian...

Si vous souhaitez en savoir plus, voire rejoindre la communauté des « DH librarians », sachez que deux groupes de travail sont en train de se monter, de façon complémentaire : un groupe « libraries » au sein de DARIAH piloté par Tamara Butigan et Sally Chambers, et un groupe « Digital Humanities » au sein de LIBER piloté par Lotte Wilms et Andreas Degkwitz (plus d’infos ici). A suivre donc, l’un des prochains épisodes étant le symposium auquel je participe à Francfort en octobre : New Directions for Libraries, Scholars, and Partnerships: an International Symposium et peut-être plus près de vous géographiquement, la journée d’études de l’ADEMEC à Paris le 14 octobre : Humanités numériques et données patrimoniales : publics, réseaux, pratiques. Venez nombreux, en plus c’est gratuit !

L’évolution du modèle d’agrégation de données dans les bibliothèques numériques

J’ai rassemblé dans ce billet quelques réflexions et observations qui m’ont été inspirées notamment par mes travaux au sein d’Europeana ces derniers mois. Tout est parti du sentiment diffus que l’agrégation telle qu’on la connaît actuellement est en train d’évoluer, même s’il est difficile de savoir vers quoi, car je n’ai pas lu de théorie très construite sur le sujet. Donc à défaut de l’avoir trouvée résumée ailleurs, je la propose ici aujourd’hui.

A l’origine…

Vers le milieu des années 2000, lorsque les bibliothèques numériques comme Gallica ou Europeana ont commencé à avoir l’ambition d’atteindre une masse critique, elles ont défini un modèle d’agrégation de données, c’est à dire une méthode permettant de rassembler dans une interface unique des données issues de plusieurs institutions. Ce modèle d’agrégation était essentiellement basé sur le protocole OAI-PMH, inspiré notamment par ce qui se passait dans la communauté des archives ouvertes.

Les principes de ce modèle sont relativement simples :

* du point de vue technique, le protocole OAI-PMH offre un cadre transverse aux professions de la documentation, du patrimoine et de l’information scientifique et technique. Conforme aux standards du web, il repose sur des normes simples à implémenter et des logiciels open source à peine plus complexes qu’une bête plateforme LAMP, à la portée de n’importe quel webmestre sachant un peu ce qu’il fait.
* du point de vue des métadonnées, le format Dublin Core dit « simple » avec ses 15 éléments facultatifs et répétables sert de dénominateur commun pour la convergence syntaxique (avoir des métadonnées qui « entrent dans le même moule » pour prendre une métaphore culinaire – mais la forme du moule ne garantit pas qu’on utilise la même recette pour la pâte à gâteau). Le fait de pouvoir y adjoindre n’importe quel format plus complexe du moment qu’il peut être exprimé en XML semblait au départ une consolation suffisante pour des usages plus avancés. On se repose enfin sur l’asynchronisme du système (moissonnage des métadonnées qui sont ensuite stockées dans un nouvel entrepôt pour construire des services) et sur des technologies de type moteur de recherche plein texte à facettes pour fournir le service d’accès.

* enfin du point de vue des contenus, des arguments politiques et institutionnels plaidaient en faveur d’une consultation des documents numérisés sur le site propre de chaque institution, ce qui lui permettait de préserver son image (sa « marque ») et son audience, généralement l’unique indicateur de succès d’un service de bibliothèque numérique.

Ce modèle d’agrégation a servi de base à la construction de la première version du portail Europeana, qui avait défini à cette fin le modèle ESE (Europeana Semantic Elements), une sorte de DC simple augmenté de quelques éléments de provenance. La simplicité technique du modèle a permis une implémentation rapide débouchant sur le moissonnage des métadonnées décrivant des millions d’objets culturels en seulement quelques mois : un « quick win », en quelque sorte. Dans ce modèle, l’interopérabilité sémantique (la fameuse recette de pâte à gâteau mentionnée plus haut) était assurée par des tiers appelés « agrégateurs », chargés pour un domaine national ou thématique de veiller à l’homogénéité des données grâce à des bonnes pratiques ou des traitements.

Ce que le web de données a changé au modèle d’agrégation

Cependant, quasiment à l’époque où ce modèle se mettait en place à grande échelle, on voyait déjà un autre modèle d’agrégation pointer le bout de son nez : le Linked Open Data (web de données en bon français).

Cela n’avait pas échappé aux concepteurs d’Europeana qui rêvaient de créer autre chose qu’un énième portail de métadonnées comme il en existait déjà beaucoup. Dans une démarche de long terme, le modèle de métadonnées EDM (Europeana Data Model) a été imaginé pour prendre la suite d’ESE en décuplant ses capacités. On pensait alors que l’interopérabilité par les liens, inhérente au web de données, était appelée à remplacer à terme l’agrégation par moissonnage.

Mais ce n’était pas si simple…

* du point de vue technique, le web de données apparaît comme la nouvelle génération qui a tout pour succéder à l’OAI-PMH : encore plus intégrée à l’architecture du web, elle transcende les frontières des métiers et des domaines et s’affranchit en théorie de toute les problématiques liées au stockage des données (car dans l’architecture du web, l’endroit où les données sont stockées est rendu abstrait par l’utilisation des URI et de l’hypertexte). Cependant, en pratique, la construction de nouveaux services à partir de ces données continue à nécessiter une forme de moissonnage ; or on ne dispose pas dans le web de données des mécanismes très pratiques fournis par l’OAI-PMH à cette fin (horodatage des données permettant de ne récupérer que les mises à jour, suivi des enregistrements détruits par ex.). Au final tout ce nouvel environnement technique faisait appel à des compétences qui n’allaient pas de soi pour les informaticiens, ce qui a pu freiner les réutilisations et l’agrégation de données utilisant ces principes au-delà de prototypes ponctuels.
* du point de vue des données, le modèle RDF présente l’avantage d’autoriser la description de de ressources non documentaires, les « entités » qui interagissent avec les documents : personnes et autres agents, sujets, lieux, périodes temporelles… Le web de données a contribué à réhabiliter ce qu’on appelait en bibliothèque les « données d’autorité », réaffirmant leur utilité voire leur caractère essentiel pour permettre l’interopérabilité non plus syntaxique mais sémantique (la pâte à gâteau, pas la forme du moule) des données. Le mythe du moteur de recherche magique qui serait capable, par des traitements automatiques, de compenser l’absence de tels référentiels s’est effondré quand on a constaté que les moteurs fonctionnaient quand même beaucoup mieux quand on y ingérait des données plus riches. L’inconvénient de ces modèles réside toutefois dans leur complexité, qui a pu dans certains cas freiner leur adoption, notamment en l’absence de compétences informatiques adéquates. Par ailleurs, la modélisation des vocabulaires ou ontologies destinés à représenter toute la richesse de l’information des institutions patrimoniales et scientifiques est une gageure qui résiste à toute tentative d’unification ou de consensus ; c’est d’ailleurs bien l’esprit du web de données, qui autorise la coexistence ou la cohabitation de plusieurs modèles reliés entre eux.

* du point de vue des contenus : RAS, ils ne sont pas vraiment concernés par cette phase et restent accessibles suivant des modalités plus ou moins similaires au modèle d’agrégation précédent.

Côté Europeana on peut mentionner, outre la mise en œuvre d’EDM au sein d’un nombre croissant de projets thématiques, la création d’un entrepôt en Linked Open Data permettant la redistribution des données en RDF et en SPARQL. Le portail lui-même a migré sous EDM en 2013 mais sa dernière version baptisée « Europeana Collections » ne tire pas encore tout le parti de la richesse du modèle.
A la BnF, data.bnf.fr est né mais reste un petit frère de Gallica se contentant de liens avec son aîné dont il ne bouleverse pas l’existence. Bref, on peut parler d’une phase « d’éveil » qui conduit à examiner sous un jour nouveau les possibles et à faire ressentir le besoin d’un vrai nouveau modèle d’agrégation, dépassant les limites de l’OAI-PMH et tirant les enseignements du web de données.

Vers un modèle de mutualisation

Dans un contexte de moyens contraints mais aussi d’évolution de la technologie et des usages, un nouveau modèle commence aujourd’hui à émerger, basé sur le principe de la mutualisation des investissements et notamment des infrastructures.
* du point de vue technique, ils s’agit de mutualiser les infrastructures du point de vue du stockage des données ou encore des traitements (conversions, diffusion…) Les données passent dans les mêmes tuyaux et les mêmes moulinettes, ce qui représente une économie à la fois en ressources machines et en développement d’outils. Des modèles de type cloud permettent d’effectuer cette mutualisation dans des espaces physiquement communs mais logiquement indépendants (façon moule à madeleines). Il n’y a donc pas forcément agrégation à ce stade, mais elle sera évidemment facilitée par la suite.
* du point de vue des données, l’ambition est de dépasser les contraintes liées à l’adoption d’un modèle ou format commun. On attend des outils nouveaux qu’ils soient suffisamment flexibles pour s’adapter à tous types de formats et qu’ils supportent facilement les conversions de l’un à l’autre : c’est la leçon tirée des étapes précédentes, qui ont démontré qu’il était toujours préférable de travailler les données dans leur format source, qu’aucun format « commun » même riche ne peut remplacer. Le web de données reste un modèle d’interopérabilité prometteur grâce aux URI, aux liens entre les ressources et à la sérialisation JSON-LD, beaucoup plus simple que les syntaxes précédemment utilisées pour exprimer le RDF. Des vocabulaires comme Schema.org visent à permettre de faire du web sémantique comme Monsieur Jourdain faisait de la prose.

* du point de vue des contenus : on commence dans la sphère culturelle à dépasser le paradigme qui voulait que les contenus, pour des raisons politiques, ne soient consultables que sur le site d’origine, position devenue intenable (si elle l’a jamais été) du point de vue des usages. Que ce soit par copie des fichiers ou via des API comme IIIF, qui fournit un mécanisme pour appeler de manière distante des images numérisées avec leurs métadonnées en JSON-LD, la tendance est à l’agrégation des contenus eux-mêmes dans l’interface commune, ce qui permet de mutualiser également les outils complexes que sont les visualiseurs de documents.

Gallica et Europeana, pour continuer sur ces deux exemples, ont toutes deux entamé une mutation progressive vers ce nouveau modèle. Du côté de Gallica, cela se concrétise par l’intégration de documents de partenaires qui n’avaient pas encore trouvé leur outil de diffusion et par la réalisation de bibliothèques numériques en « marque blanche », Numistral et la Grande Collecte. Côté Europeana, le nouveau portail Collections utilise IIIF pour présenter directement sur son site les médias numérisés, avec zoom en haute résolution et feuilletage le cas échéant.

Derrière cette modification en apparence ponctuelle, c’est en fait une refonte complète du modèle d’agrégation qui se profile du côté d’Europeana. Après avoir défini un cadre de publication (Europeana Publishing Framework) et, en partenariat avec DPLA, un cadre juridique, Europeana s’interroge actuellement via le forum des agrégateurs sur le rôle et la fonction de ces derniers. Le projet Europeana Cloud, qui s’est déroulé de 2013 à 2016, permet d’imaginer un avenir où de nombreuses fonctions de stockage et de traitement de données seront mutualisées dans une infrastructure commune, ce qui évitera aux agrégateurs de faire face aux mêmes problèmes en développant chacun des solutions différentes.

Le rôle des agrégateurs évoluerait alors vers une fonction de centre d’expertise au service d’acteurs plus modestes ou disséminés, qui les accompagnerait dans l’agrégation de leurs données directement dans l’infrastructure cible. On pourrait imaginer la centralisation de traitements coûteux et complexes à mettre en œuvre comme les alignements de référentiels ou les enrichissements automatiques de métadonnées. L’utilisation de mécanismes comme IIIF présente l’avantage de conserver la lisibilité des flux d’audience (on comptabilise tout de même des « hits » sur le site fournisseur) tout en favorisant des usages plus fluides. C’est la promesse de pouvoir non seulement centraliser dans les portails la visualisation des contenus, mais aussi constituer plus facilement des bibliothèques numériques de niche, agrégeant et éditorialisant des contenus sélectionnés à un niveau local.

En conclusion : aujourd’hui, demain ou après-demain ?

Sans vouloir avoir l’air de lire dans les entrailles de maquereau, ce que j’ai pu observer ces derniers mois me donne à penser que le nouveau modèle d’agrégation n’est pas encore tout à fait mûr et ne le sera pas avant au moins 3 à 5 ans. Il ne dit pas encore son nom et ressemble aujourd’hui à un patchwork d’initiatives en ordre dispersé dont il est assez difficile de voir le motif global, à moins de prendre beaucoup de recul, ce que j’ai essayé de faire ici. Certains aspects techniques relèvent encore de la promesse et demandent à démontrer leur faisabilité. On pourrait également avoir des surprises et voir de nouveaux dispositifs émerger. Cependant, je suis convaincue que l’on tendra inévitablement vers ce nouveau modèle qui s’installera d’abord en parallèle du modèle OAI-PMH, toujours efficace, et du web de données qui continue à se développer.
A suivre, rendez-vous dans 3 ans ?
En attendant, je me permets de vous solliciter, vous qui avez eu le courage de lire ce long billet jusqu’au bout :
– si vous avez encore le temps de faire de la veille et si vous connaissez d’autres exemples de modèles d’agrégation qui évoluent dans le même sens ou dans un sens différent,
– si vous en savez plus que moi sur les aspects techniques et que cela vous inspire des suggestions ou des réfutations,
– si vous agrégez des données et que ces perspectives vous parlent,
exprimez-vous dans les commentaires ci-dessous, vous aurez ma gratitude éternelle.

#EuropeanaElects : ma campagne sur Twitter

europeana-test

Europeana, je la connais depuis sa plus tendre enfance. En fait, elle n’était même pas encore née qu’on était dans une salle de réunion à Luxembourg, avec quelques collègues dont certains sont depuis devenus des amis, et on parlait d’interopérabilité comme on lance une balle à la passe-à-dix, priant pour qu’elle ne retombe jamais.

Puis il y a eu cette époque où on rêvait qu’Europeana ne soit pas encore un énième portail, où devant une bière sur une place ensoleillée de La Haye on griffonnait sur un bout de papier notre idée du réseau d’informations sémantiques, œuvres, personnes, événements… qui donnerait du sens à l’information culturelle diffusée sur le web. C’est comme ça qu’on s’est lancés dans la création du Europeana Data Model, EDM de son petit nom.

Puis il y a eu l’ère des projets, avec leur cortège de « proposal submissions », « work packages », « deliverables », « prototypes » etc. Ils sont bientôt devenus tellement nombreux que même les organiser et comprendre comment ils s’articulaient les uns avec les autres était devenu un défi. Pendant ce temps, le portail, lui, s’enrichissait de nouvelles fonctionnalités, s’ouvrait à des expositions virtuelles, agrégeait toujours plus de données provenant de toujours plus d’institutions dans toute l’Europe.

Où en est-on aujourd’hui ? Une nouvelle version du portail est en train de voir le jour. Même si on est encore loin de notre rêve initial, les progrès sont énormes. Et surtout, ce qui me paraît beaucoup plus important, le portail n’est que la partie émergée de l’iceberg.

Pour moi, la grande réussite d’Europeana, ce n’est pas d’avoir agrégé toutes ces données (même si je ne dis pas que c’était facile) mais d’avoir fourni une énorme impulsion dans la communauté culturelle en Europe pour permettre la numérisation du patrimoine. Des pays ou des institutions qui n’en auraient jamais fait un axe prioritaire se sont organisés pour obtenir des financements et lancer des projets. Ceux qui s’étaient déjà lancés ont apporté leurs collections mais aussi leur savoir-faire et leur expertise. Cet effort a été transverse (archives, bibliothèques, musées, audiovisuel) et a facilité l’émergence d’une préoccupation pour l’interopérabilité des collections même quand celles-ci sont constituées d’objets par définition uniques. Enfin Europeana a été un ardent promoteur de l’open data.EUfinal01-Cloud-V8-1024x768

La stratégie d’Europeana a évolué pour aller vers une infrastructure numérique partagée dont l’objectif est de servir aussi bien la communauté des professionnels des institutions européennes que celle des usagers. Les données ont été ouvertes en Linked Open Data, et leur redistribution via des dispositifs d’API pour encourager des réutilisations diverses et variées est considéré comme aussi importante, voire davantage, que le portail lui-même. L’ambition est également de partager des outils de traitements de données, d’enrichissement, de transformation et de préservation qui permettront aux institutions qui n’ont pas les moyens de les construire d’en bénéficier et d’enrichir leurs données et leurs services.

Enfin, Europeana est devenu un réseau, une communauté. Cette communauté partage son expertise professionnelle, technique et scientifique mais aussi sa motivation et son implication pour rendre accessible la culture européenne au plus grand nombre grâce au numérique. Construire et animer une communauté est une tâche ardue et parfois ingrate, mais c’est aussi ce qui permet aux idées de naître, de murir, de circuler et finalement de déboucher sur des projets et des réalisations qui peuvent transformer davantage que nos métiers et nos communautés. Transformer le monde par la culture, c’est l’ambition d’Europeana.

EUfinal07-Impact-V9Il ne faut pas oublier qu’Europeana est née d’une idée politique : elle a encore les moyens, grâce aux énergies qu’elle fédère, de peser en faveur des politiques culturelles des États de l’Europe et d’aider à mobiliser des moyens pour continuer à les développer. C’est parce que je crois sincèrement que sans Europeana, nous ne serions pas où nous en sommes aujourd’hui en matière de développement de l’accès numérique à la culture, qu’il était important pour moi de faire partie de l’association et de candidater pour devenir membre du conseil. On m’a invitée à faire campagne pour les élections qui se dérouleront en ligne du 3 au 9 novembre : c’est l’occasion pour moi de (re)poster sur Twitter quelques liens et idées sur Europeana. A suivre sur #EuropeanaElect.

Le droit de ReLIRE

Je travaille dans l’édition.

Je sais, c’est curieux, certains d’entre vous se demandent s’ils n’auraient pas loupé le dernier rebondissement de ma vie professionnelle ; je vous rassure, au départ c’est juste une bizarrerie d’organigramme : au Centre Pompidou, le service qui s’occupe du site web est rattaché à la direction des éditions. Au départ, on coexistait un peu, les éditions et moi. Et puis petit à petit, à force de m’intéresser, de monter des projets ensemble, d’assister aux réunions de service, de plancher sur le budget, j’ai fini par avoir l’impression de faire quand même partie de la famille. Une famille proche, finalement, plus que le musée, d’une certaine manière.

C’est peut-être à cause de cela que je n’arrive pas à voir le projet du jour, le ReLIRE de la BnF, d’un mauvais œil. Je vous le décris juste en trois mots, la littérature sur ce sujet sur le Web est pléthorique, les points de vue contradictoires ne manquent pas.
L’objectif est de remettre dans le circuit de la commercialisation des ouvrages avant 2001, devenus indisponibles, mais qui sont encore couverts par les droits d’auteur. En général les droits d’auteur ont été cédés à un éditeur, mais il est d’usage, si celui-ci n’exploite plus l’ouvrage, que les droits soient rétrocédés à l’auteur. C’est dans la loi et en général c’est aussi précisé dans le contrat d’édition si celui-ci est bien fait. Et de toute façon, les contrats d’édition de cette époque prévoyaient rarement l’exploitation numérique (nous on a commencé en 2010).
Partant de ce principe, l’idée est de numériser en masse ces (nombreux) ouvrages indisponibles, afin de pouvoir les réinjecter dans le circuit de distribution sous une forme numérique. Tâche confiée à la BnF parce que d’une part, elle a un savoir-faire dans le domaine de la numérisation de masse, et d’autre part… les livres sont là, sur place, dans ses magasins.
ReLIRE propose un premier recensement de 60 000 œuvres, qui sera augmenté chaque année jusqu’à atteindre les 500 000 estimées. Les auteurs peuvent dans les 6 mois s’opposer à l’inclusion de leur(s) titre(s) dans le registre. Les éditeurs le peuvent également, à condition qu’ils s’engagent à réexploiter l’ouvrage sous format papier ou numérique (ou s’ils le font déjà). En l’absence d’opposition, les livres seront numérisés et confiés à une société de gestion collective chargée d’exploiter commercialement ce fonds et de rémunérer les ayants-droit.

Je ne suis pas juriste, ni expert du droit d’auteur, je ne peux donner sur ce projet qu’un ressenti personnel à la hauteur de mon expérience et de ma pratique personnelles. Mais vu de chez moi, le déchaînement d’indignation suscité par ReLIRE est assez incompréhensible.

Quand on connaît la situation de l’édition aujourd’hui et son mode de fonctionnement, il faut vraiment faire preuve d’une immense naïveté (ou mauvaise foi) pour penser que ces livres devenus indisponibles depuis plus de 10 ans et qui le sont restés depuis ont la moindre chance d’être réédités en dehors de ce dispositif. La durée d’exploitation d’un titre est actuellement de quelques mois à peine, sa présence en librairie de quelques semaines. Les éditeurs tirent les exemplaires au plus juste pour éviter les stocks, tout ce qui n’est pas écoulé dans ce délai de quelques mois est pilonné. La probabilité de voir les distributeurs et les libraires accepter de remettre en place un titre qui n’est pas neuf est quasi nulle, si bien qu’un éditeur préfèrera toujours publier quelque chose de nouveau qu’il pourra marketer comme tel que de ressortir des textes des tiroirs, même s’ils sont bons. Même les distributeurs numériques effectuent une sélection dans ce qu’ils diffusent, ils ne font pas de numérisation de masse et ne vont certainement pas rechercher les titres d’il y a dix ans quand le marché les inonde de plus de 60 000 monographies par an. Les auteurs qui ont la chance d’être constamment réédités et vendus sont peu nombreux, mais en passant, ce ne sont pas eux qui sont concernés par le dispositif ReLIRE.

Alors évidemment, constituer comme on peut un registre de 60 000 titres et demander aux auteurs de faire de l’opt-out ce n’est peut-être pas le système idéal, mais quoi d’autre ? Négocier individuellement avec chacun ses droits numériques ? Ce serait une tâche dantesque, j’en sais quelque chose moi qui ai la charge de le faire pour les quelque 6000 artistes dont les œuvres sont conservées au Centre Pompidou. Et dans quel but ? Quand je pense que mes quelques Œuvres Papier commises (en tant qu’auteur) pour le Cercle de la Librairie m’ont rapporté chacune à peine une centaine d’euros, sur plusieurs années (et elles ne sont pas indisponibles !!) je doute que ces auteurs dont les œuvres étaient oubliées ne fassent fortune. Au moins, la mise en place d’une gestion collective et d’une commercialisation leur permettra de toucher quelque chose. S’ils trouvent cela ridicule, libre à eux de se retirer du dispositif et de mettre leurs œuvres en ligne gratuitement (à condition qu’ils aient récupéré leurs droits auprès de leur éditeur, of course… un autre parcours du combattant, malgré tout, dans lequel seuls les plus tenaces s’engageront).
On peut aussi critiquer le système de l’opt-out et se dire que la base de données proposée par la BnF devrait être parfaite du premier coup et intégrer toutes les informations qui n’existent pas, comme le registre centralisé de toutes les éditions numériques déjà existantes, FRBRisé s’il-vous-plaît pour qu’on puisse savoir de quelle édition papier la version numérique est dérivée. Ceux qui ont déjà géré une base de données bibliographique de 60 000 références savent qu’il n’y a rien là d’anodin (et je tire mon chapeau au passage aux collègues de la BnF pour le travail réalisé en un temps record, moi qui ai toujours claironné que faire aboutir un projet en moins de 2 ans dans cet établissement était impossible.)
On pourrait objecter que le délai d’opposition, 6 mois, est bien court. Je fais cent pour cent confiance aux auteurs et à leurs ayants-droit pour aller vérifier le registre dans les 6 mois. Ces gens-là sont soucieux de ce qu’il advient de leur production. S’ils ne le sont pas, alors on peut penser qu’ils n’auraient jamais fait la moindre démarche pour que leurs bouquins redeviennent disponibles, c’est donc heureux que quelqu’un le fasse à leur place.

On ne peut pas à la fois critiquer la loi sur le droit d’auteur dans le fait qu’elle est inadaptée au monde numérique, et en même temps tirer à boulets rouges sur la première initiative visant à essayer de trouver des solutions intermédiaires. Évidemment, le monde serait plus beau et les licornes pataugeraient au pied de cascades de guimauve si tous les auteurs, même les plus obscurs, pouvaient voir leur prose toujours accessible, sans que cela ne nécessite de construire un modèle économique pour que quelqu’un (les éditeurs par exemple) assument les coûts associés, et qu’en plus tout le monde puisse en vivre grassement. Mais il faut être un peu réaliste. Le dispositif proposé présente au moins l’avantage d’offrir une seconde vie à des ouvrages qui n’en auraient jamais eu.

NB : « le droit de relire », l’un des droits fondamentaux du lecteur selon Daniel Pennac, Comme un roman, 1992.

La bibliothèque numérique dont j’ai rêvé

Ayant été hors jeu pendant plusieurs mois en 2008, c’est avec d’autant plus de confort que je m’accorde, pour une fois, un petit message publicitaire sur Gallica 2 et Europeana.

La nouvelle version de Gallica 2, mise en ligne à la mi-janvier, comporte plein de fonctionnalités que j’appelais de mes voeux depuis longtemps, comme des fils RSS paramétrables en fonction d’une recherche, un widget :

Vieux Paris [lithographie par J. Jacottet], Musée Carnavalet : [photographie de presse] / [Agence Rol]
Vieux Paris [lithographie par J. Jacottet], Musée Carnavalet : [photographie de presse] / [Agence Rol]

Mais on peut aussi consulter des documents sonores, et même écouter en synthèse vocale les livres dont la qualité d’OCR est suffisante (supérieure à 95%) par exemple on a bien ri en écoutant certains passages de celui-là.

Europeana, je ne rentrerai pas dans les détails, mais il faut entrer dans le Thought labs où se font les premières expérimentations avec Web sémantique inside
Les mésaventures d’Europeana à son lancement (et je le rappelle, même s’il y a 2 millions d’objets dedans, ce n’est qu’un prototype) me semblent montrer à quel point les nouvelles interfaces de bibliothèque numérique, et quelque chose d’aussi simple que la mise en valeur de vignettes, représentent un enjeu pour la visibilité des contenus culturels, au niveau national et au niveau européen.

Donc, un grand bravo, un grand merci à tous ceux qui ont dépensé une énergie conséquente sur ces projets durant ces dernières années. Il nous reste deux petites semaines pour dire adieu à l’ancienne version de Gallica. On sait qu’il y aurait encore beaucoup à faire, mais on a fait du chemin.

A l’Est, du nouveau

La dernière lettre de la section Information Technology de l’IFLA contient deux articles intéressants.

Le premier relate l’expérience de la bibliothèque universitaire de Vilnius pour mettre en place des services 2.0. Ce que je trouve intéressant dans cet article c’est qu’il ne présente pas le versant technologique de la chose (dont on a soupé, franchement : des articles qui expliquent encore ce que sont les blogs et les wikis !). Il se positionne du point de vue de ce qui pose vraiment problème dans la mise en place d’un projet de bibliothèque 2.0 : la mobilisation des agents et l’accompagnement au changement. Ainsi, avant de mettre en place des services 2.0 dans la bibliothèque, ils ont sondé les personnels (et l’encadrement en particulier) sur leur niveau de compétences technologiques puis ont organisé un plan de formation approprié.
L’initiative a débouché sur un blog interne, un blog des guides touristiques de la bibliothèque, un compte delicious, et un wiki pour le personnel qui permet d’avoir toutes les informations sur le plan de formation en question.

Le second décrit l’initiative PIONER qui a permis à des bibliothèques numériques polonaises de créer une Fédération qui bénéficie de son portail. Un framework en open source, dLibra, a été développé pour être mis à disposition des bibliothèques locales pour mettre en ligne leurs fonds. Ensuite l’ensemble est fédéré via OAI-PMH.

Pour le contexte : la section IT de l’IFLA est là où se discutent les enjeux des évolutions technologiques pour les bibliothèques. On y parle beaucoup de « library 2.0 » en ce moment forcément, mais pas seulement : cet été à Montréal elle co-organisait avec la section Préservation et l’ICABS (qui s’occupe de normes bibliographiques) une conférence sur la préservation numérique pour laquelle avec plusieurs collègues nous avions écrit cet article (traduction française). L’été prochain, il y aura une pré-conférence satellite à Florence sur le thème « Emerging trends in technology: libraries between Web 2.0, semantic web and search technology »… et j’espère bien y aller !

Nous ne numériserons plus ensemble…

Vendredi, Microsoft a annoncé sa décision d’arrêter ses programmes de numérisation et la fermeture des plateformes Live Search Books et Live Search Academic.

Cette décision a été pas mal commentée : même en français ici.

On peut s’inquiéter pour ce qu’il va advenir d’un programme comme Open Content Alliance, qui s’appuyait sur les financements de Microsoft entre autres : mais Internet Archive a de la ressource, je pense qu’ils vont s’en sortir (d’ailleurs ils ont l’air assez confiants si on lit ça). Finalement cette décision est présentée, y compris par Microsoft eux-mêmes, comme un potentiel catalyseur pour encourager le financement de la numérisation par les bibliothèques, les éditeurs, les pouvoirs publics.

Personnellement je m’interroge davantage sur le positionnement d’une bibliothèque comme la British Library, qui s’était lancée dans un partenariat resserré avec Microsoft et comptait sur Live Books Search pour lui servir d’interface de consultation. Même s’ils récupèrent du même coup leurs fichiers et leurs droits, c’est quand même un gros ajustement par rapport à leur stratégie de départ que de devoir construire leur propre bibliothèque numérique.
Pour l’instant personne n’a évoqué la réaction de la British Library, à ma connaissance.

Histoires de numérisation

Dans cet article, un gars de Google raconte les problèmes de gestion de l’information et du document qu’ils ont rencontrés en mettant en place Google Books Search. On y trouvera des réflexions sur l’OCR, l’analyse de documents, l’extraction de métadonnées, le traitement des images, l’affichage et la visualisation des documents ou extraits de documents, le logiciel libre et la R&D.

Dans Wired, on peut consulter un reportage photographique sur la numérisation réalisée par Internet Archive dans le cadre du projet OCA. Noter le côté très artisanal de la chose…

A consulter avec l’autre main : Framework for good digital collections (document du NISO, version 3, décembre 2007) et le probablement déjà cité Preservation in the age of large-scale digitization (Rapport du CLIR, par Oya Rieger de l’université de Cornell).

Sources :
Lorcan Dempsey
disruptive library technology jester