Des nouvelles d’Europeana

Du 7 au 9 novembre derniers, j’ai assisté à l’assemblée générale de l’association du réseau Europeana (Europeana Network Association), précédée de la réunion du conseil des membres. Je poste mon compte-rendu ici car comme vous le savez, la participation à l’association se fait à titre individuel : au sein du conseil des membres, je représente l’ensemble de ma communauté (vous tous, chers lecteurs, qui que vous soyez !)

Un petit rappel sur la gouvernance avant de commencer : pour mémoire, Europeana marche aujourd’hui sur deux jambes. La première est son organe opérationnel ou exécutif, la Fondation Europeana, en charge de la mise en œuvre du portail Collections notamment. La deuxième est l’Association, qui rassemble l’ensemble du réseau dans toute sa diversité : bibliothécaires, archivistes, conservateurs de musées mais aussi enseignants, historiens, éditeurs, entrepreneurs de start-ups et simples usagers. L’Association est pilotée par un conseil des membres (Members Council) dont 6 représentants forment le Management Board. Les membres de ce Management Board siègent également au Governing Board de la Fondation : l’instance qui pilote le tout, en lien avec les États membres et la Commission Européenne. En images :

Donc Assemblée générale de l’Association : il s’agit de la grande rencontre annuelle de tous les membres du réseau, qui se tenait cette année à la bibliothèque nationale de Lettonie à Riga.

Parmi les sujets à l’ordre du jour, la nouvelle stratégie d’Europeana suite aux conclusions du conseil de l’Europe en mai dernier. Cette nouvelle stratégie repose sur deux grands axes :
– d’une part, pour les institutions patrimoniales, faciliter considérablement le versement de données dans Europeana,
– d’autre part, moderniser la manière dont les usagers accèdent au contenu, en mettant l’accès sur les usages pédagogiques et les accès thématiques.

Sur le premier point, nous avons eu droit à une présentation du nouveau procédé « operation direct » qui permettra de charger dans Europeana des documents numériques directement via une API très simple ou à partir d’un CMS, par exemple. Ce mode de versement ne se substitue pas au fonctionnement actuel avec les agrégateurs, mais il en est complémentaire. Le rôle de IIIF dans l’évolution du modèle d’agrégation a aussi été plusieurs fois souligné (cf. aussi cette très bonne explication de IIIF en français).
Sur le deuxième point, le portail Collections avec ses 53 millions d’objets numérisés a donc vocation à se trouver un peu en retrait, à l’avenir, par rapport aux collections thématiques comme Musique, Histoire de l’art et bientôt Mode, Photographie, Presse etc. C’est l’occasion d’annoncer que pour la première fois, la Commission européenne se propose de financer des projets de médiation autour des collections numériques d’Europeana (projets à soumettre avant le 15/12).

Bien d’autres sujets ont été abordés au cours de cette assemblée générale. Les collègues américains étaient à l’honneur : ont partagé leur expérience les professionnels de DPLA, du Getty ou encore de NYPL Labs. Il a été également question à plusieurs reprises de Wikidata.
Des questions importantes pour l’avenir du réseau ont été posées, comme celle du mandat donné à Europeana pour faire du lobbying dans le domaine du copyright ou l’évaluation de l’impact de la bibliothèque numérique européenne.
Ajoutez à cela le format « chef’s tables » qui a permis d’aborder un grand nombre de sujets, du design orienté utilisateur à l’agrégation en passant par l’utilisation d’Europeana pour la recherche, et une vingtaine d’« ignite talks » : vous aurez une idée du brassage très large d’idées qui caractérise ce réseau riche et divers.

La conférence s’est terminée sur une table ronde animée par David Haskiya sur le thème « et si tout était à refaire ? » L’occasion de rappeler que même si le résultat est loin d’être parfait, Europeana nous a permis de progresser énormément sur le plan technique et de créer une dynamique autour des contenus numériques culturels. Un effort que la communauté réunie la semaine dernière à Riga est motivée à poursuivre.

Pour en savoir plus :

3 minutes pour Europeana

Amis internautes, gallicanautes, bibliothéconomes et divers autres, j’ai un service à vous demander et cela ne vous prendra en tout et pour tout que 3 minutes.
1) rendez-vous sur le portail Europeana Collections (NB : utiliser « settings » à droite pour passer l’interface en français)
2) cherchez votre auteur, artiste, document, personnage ou animal préféré
3) dans la colonne de gauche, cliquez sur « yes with attribution/oui avec attribution »
4) choisissez un des résultats proposés
5) à droite cliquez sur « partager avec » votre réseau social préféré (Twitter, Facebook…)

6) écrivez « Je suis [nom que vous avez recherché] et je suis dans @EuropeanaEu #AllezCulture ! »

Voilà, c’est tout, si vous ne voulez pas y passer plus de 3 minutes vous pouvez vous arrêter ici. Merci beaucoup !

 

Pour ceux qui auraient besoin de savoir pourquoi je vous demande cela, voici quelques explications complémentaires.
Comme vous le savez, l’an dernier j’ai été élue membre du « Members Council » d’Europeana. Parmi mes responsabilités figure celle de faire appel à mon réseau (oui ! C’est vous !) quand Europeana a besoin d’aide. Et aujourd’hui, Europeana a besoin de votre aide.
A la fin du mois, une réunion des représentants culturels des états membres de l’Union européenne va discuter de l’avenir d’Europeana. Jusqu’ici celle-ci ne dispose pas d’un mode financement stable : sa pérennité et même sa survie sont en jeu. C’est donc le moment, plus que jamais, de consacrer 3 minutes de votre temps à dire qu’Europeana compte pour vous. Pour cela nous vous invitons à participer à la campagne #AllezCulture dont le principe est expliqué en anglais sur le blog Europeana et en français sur le blog Gallica.

 

Peut-être n’avez-vous que très peu l’usage du portail Europeana et pensez-vous que votre bibliothèque numérique locale ou nationale rend déjà la plupart des services que vous espérez (de l’inspiration pour votre prochain tatouage à la « une » de la presse d’il y a 100 ans…)
Mais il ne faut pas oublier que si l’ambition d’une bibliothèque numérique européenne n’avait pas suscité la numérisation de masse, Gallica aurait peut-être continué la numérisation au même rythme qu’auparavant et compterait moins de 100.000 documents au lieu des 3,5 millions qu’elle propose aujourd’hui. Que certains pays européens et certaines institutions n’auraient pas pu démarrer leurs programmes de numérisation si Europeana n’avait pas été présente pour les soutenir, techniquement et financièrement.
Nous savons aussi, nous professionnels de la culture, qu’Europeana ce n’est pas seulement un portail mais un réseau d’experts qui s’engage dans la défense du domaine public et de l’open data, invente le modèle d’agrégation de demain et milite d’une façon générale pour la diffusion la plus large de la culture sur le web dans tous les pays d’Europe.

 

3 minutes de votre temps, c’est tout ce que nous vous demandons pour contribuer à affirmer votre attachement à ces valeurs et votre souhait qu’Europeana puisse continuer à exister, à fédérer les énergies en faveur de la numérisation du patrimoine et de sa diffusion et à fournir le terreau d’innovations technologiques partagées.
Et si vous avez un peu plus de temps et d’énergie à consacrer à la cause, vous pouvez adhérer à l’association du réseau Europeana : c’est gratuit, cela ne prend que quelques minutes là aussi, et cela vous permettra de recevoir régulièrement les informations du réseau.

IIPC 2016 – how to collaborate ?

Il y a deux semaines, j’avais le privilège de partir pour une semaine en Islande à l’occasion de la rencontre annuelle du consortium IIPC pour la préservation de l’Internet : d’abord l’assemblée générale, puis conférence WAC (Web Archiving Conference) et enfin la réunion du Steering Committee, instance de gouvernance du consortium. Ce dernier, constitué de 15 membres issus pour la plupart de bibliothèques nationales, m’a fait la confiance de me confier la présidence du consortium pour un an.

 

Beaucoup d’entre vous m’ont félicitée sur les réseaux sociaux, ce dont je vous remercie, mais je ne suis pas sûre que tout le monde sache exactement de quoi il retourne, donc j’ai décidé de revenir ici sur le consortium IIPC et ce rôle de présidente.

 

Le consortium a été fondé il y a 13 ans par un petit groupe de bibliothèques nationales conjointement avec Internet Archive, fondation américaine à but non lucratif qui s’était donné l’objectif d’archiver le web dès le milieu des années 1990 et était pratiquement la seule organisation, à cette époque, disposant de l’infrastructure matérielle et logicielle permettant d’accomplir une tâche aussi dantesque à grande échelle.
IIPC avait alors pour but de créer des outils communs, de susciter l’émergence d’une communauté et d’alerter sur l’importance de l’archivage du web, afin que se mette en place une dynamique internationale qui assurerait la mémoire du web que nous connaissons.
Le propos introductif de Marc Weber, directeur du Computer History Museum, du colloque Time and temporalities of the Web, en fin d’année 2015, m’a fait réaliser que parmi les nombreux réseaux qui ont existé avant que le web ne finisse par s’imposer, comme Arpanet ou le Minitel par exemple, fort peu ont fait l’objet d’un effort de préservation ; en fait, seuls en ont bénéficié ceux dont les créateurs avaient conscience d’une perte de mémoire potentielle et se sont mobilisés pour sauvegarder leur propre objet.
Le travail d’Internet Archive dès 1996 puis l’investissement des bibliothèques nationales, qui ont cherché à se doter non seulement d’outils mais aussi d’un cadre juridique s’appuyant sur le dépôt légal et de procédures métier héritées de leur tradition professionnelle, ont doté le web d’une mémoire qui a en outre la qualité de ne pas être trop biaisée d’un point de vue historique, en tout cas moins que si elle avait été documentée uniquement par les créateurs du web eux-mêmes.
Avec la fondation d’IIPC, les bibliothèques nationales apportaient à la communauté de l’archivage du web un autre atout : leur capacité à organiser des processus de couverture documentaire au niveau international, comme elles l’avaient fait autrefois avec le contrôle bibliographique universel.

 

Aujourd’hui le consortium IIPC ce sont 50 membres venus de nombreuses régions du globe et dont le profil ne se limite plus aux bibliothèques nationales : des bibliothèques universitaires, des acteurs majeurs dans le domaine de l’audiovisuel ou encore des acteurs privés se préoccupent aujourd’hui de cette question. La conférence annuelle s’ouvre également, de façon de plus en plus prégnante, à des universitaires issus de différentes disciplines, pour lesquels les archives du web sont un objet d’étude et une source de premier plan.
Dans ce contexte, le consortium semble à présent traverser une deuxième crise de croissance (la première ayant eu lieu au moment où le consortium élargissait sa base de 12 membres fondateurs : pour en savoir plus sur l’histoire d’IIPC jusqu’en 2010, lire l’article de Gildas Illien dans le BBF). Ainsi les différentes sessions de l’assemblée générale et de la conférence, sans qu’un thème particulier leur ait été attribué, ont naturellement convergé vers une question récurrente : « how to collaborate » ? Tout le monde s’accordant à reconnaître que la collaboration était aujourd’hui un enjeu majeur et une aspiration généralisée, mais que le « comment » devenait compliqué à définir avec l’élargissement de la communauté, la multiplication de ses centres d’intérêt et de fait, parfois, des divergences de vues. Pour autant, les propositions de collaboration ont été foisonnantes et ont pris de nombreuses formes différentes :
Le panorama : avec plus de 50 institutions et 150 individus autour de la table, un des premiers enjeux réside dans le fait de savoir sur quels projets travaillent les uns et les autres afin de faire émerger des synergies potentielles. Harvard a réalisé récemment un « Web archiving environmental scan » : un travail de 5 mois pour explorer les pratiques de 23 institutions et en tirer 22 opportunités de travaux à conduire. L’idée qu’IIPC puisse être un forum pour mettre régulièrement à jour ce type de rapport et ainsi mieux communiquer sur les pratiques de ses membres a été émise.
Le développement open source : celui-ci reste au cœur des pratiques traditionnelles d’IIPC, et on perçoit aujourd’hui encore des attentes importantes à l’égard des outils majeurs comme le crawler Héritrix (robot qui moissonne les pages web) ou l’open wayback (outil d’accès aux archives web), perçus comme insuffisamment documentés et stabilisés.
Les API : les « gros » outils mentionnés ci-dessus, bien qu’utilisés très largement, sont perçus comme monolithiques et peu évolutifs au regard d’un web qui tend à se modifier techniquement plus rapidement qu’eux. Ainsi la collecte des réseaux sociaux ou encore des plateformes de vidéo sont aujourd’hui des challenges auxquels tout un chacun est confronté. L’idée de travailler sur une chaîne d’outils plus modulaire, souple et évolutive, dont les différentes briques seraient liées entre elles par des API avait déjà été soulevée par Tom Cramer l’année dernière. Mais elle s’est encore renforcée et précisée cette année.
Les normes et standards : fortement liés aux outils, les standards comme le format WARC et ses différents dérivés continuent à jouer un rôle important. L’effort de normalisation requiert la construction d’un consensus et fait donc partie des attentes à l’égard d’IIPC.
Les hackathons : L’exemple d’Archives Unleashed, présenté par Ian Milligan et Matthew Weber, a montré l’importance d’organiser des temps forts d’expérimentation réunissant développeurs, archivistes et chercheurs de toutes disciplines, non seulement pour faire émerger de nouvelles idées et projets de recherche, mais aussi pour mieux comprendre ce matériau particulier que sont les archives web et adapter les outils.
L’étude des usages : l’approche orientée utilisateurs n’est pas une nouveauté au sein de la communauté IIPC qui avait déjà rassemblé des use cases (une première fois en 2006 puis à nouveau en 2013). On a vu cependant émerger de nouvelles méthodes plus orientées études d’usage, comme l’utilisation de « personas » par les archives gouvernementales britanniques.
Les collections collaboratives : là aussi il y a un existant côté IIPC, avec les collections collaboratives qui se sont mises en place d’abord autour des jeux olympiques puis d’autres sujets (la grande guerre, la crise des migrants en Europe…) en utilisant depuis l’an dernier le service Archive It. On a vu cependant émerger d’autres propositions de modèles collaboratifs autour de la collecte, comme le projet Cobweb dont l’objectif est de mettre en commun les ressources de sélection et de collecte à travers un répertoire qui permettrait à chacun de proposer des collections à archiver et à différentes institutions de déclarer leurs collectes.
Le cloud : Brewster Khale, dans sa présentation de la « bibliothèque nationale d’Atlantis » (celle dont le logo est un mermaid cat), va plus loin et renoue avec le vieux rêve d’une grande archive internationale collaborative et reliée, en s’appuyant sur l’idée du cloud : une mutualisation des infrastructures, des ressources et des outils, permettant néanmoins à chaque bibliothèque nationale d’affirmer sa propre identité. On est très proche ici des idées que je présentais récemment au sujet des bibliothèques numériques. Brewster note aussi la difficulté croissante à démêler le web des autres ressources qui intéressent les bibliothèques (livres, revues, audiovisuel…), devenues elles aussi numériques et circulant sur le web, ce qui va nous obliger à penser des interfaces qui ne séparent plus le web du reste de la bibliothèque.

 

Et mon rôle de présidente, dans tout ça ? Le renouvellement de l’accord de consortium début 2016 a été l’occasion de remettre sur la table la question de la stratégie d’IIPC et ses ambitions, ainsi que de revoir sa gouvernance : ont ainsi été créés trois « portefeuilles » (« portfolios »), trois thématiques qui permettent d’appréhender le consortium sous trois angles différents : le développement des outils, l’engagement des membres et la recherche de nouveaux partenariats.
Ce changement amené par le précédent président, Paul Wagner de Bibliothèques et Archives Canada, pouvait paraître couler de source mais il a été reconnu par certains des membres les plus anciens du steering committee comme une étape essentielle, et avec raison. Il apporte en effet deux éléments qui seront sans doute clefs pour le développement d’IIPC à l’avenir : d’une part une gouvernance plus engagée, d’autre part une lisibilité de la stratégie qui devrait lui permettre de passer cette nouvelle étape de croissance, c’est-à-dire de cesser d’être un groupe ou un club exclusif réservé à quelques experts pour devenir une communauté, dans toute sa richesse et sa diversité.
Prenant le relais de Paul au 1er juin 2016, mon rôle sera d’accompagner cette nouvelle organisation et de l’installer dans le fonctionnement quotidien du consortium et en particulier du Steering Committee, avec pour ambition de transformer les idées en actions concrètes, même si celles-ci ont dans un premier temps une ambition limitée.
Sur ce je vous laisse, j’ai un « strategic plan » à rédiger ;-)

L’évolution du modèle d’agrégation de données dans les bibliothèques numériques

J’ai rassemblé dans ce billet quelques réflexions et observations qui m’ont été inspirées notamment par mes travaux au sein d’Europeana ces derniers mois. Tout est parti du sentiment diffus que l’agrégation telle qu’on la connaît actuellement est en train d’évoluer, même s’il est difficile de savoir vers quoi, car je n’ai pas lu de théorie très construite sur le sujet. Donc à défaut de l’avoir trouvée résumée ailleurs, je la propose ici aujourd’hui.

A l’origine…

Vers le milieu des années 2000, lorsque les bibliothèques numériques comme Gallica ou Europeana ont commencé à avoir l’ambition d’atteindre une masse critique, elles ont défini un modèle d’agrégation de données, c’est à dire une méthode permettant de rassembler dans une interface unique des données issues de plusieurs institutions. Ce modèle d’agrégation était essentiellement basé sur le protocole OAI-PMH, inspiré notamment par ce qui se passait dans la communauté des archives ouvertes.

Les principes de ce modèle sont relativement simples :

* du point de vue technique, le protocole OAI-PMH offre un cadre transverse aux professions de la documentation, du patrimoine et de l’information scientifique et technique. Conforme aux standards du web, il repose sur des normes simples à implémenter et des logiciels open source à peine plus complexes qu’une bête plateforme LAMP, à la portée de n’importe quel webmestre sachant un peu ce qu’il fait.
* du point de vue des métadonnées, le format Dublin Core dit « simple » avec ses 15 éléments facultatifs et répétables sert de dénominateur commun pour la convergence syntaxique (avoir des métadonnées qui « entrent dans le même moule » pour prendre une métaphore culinaire – mais la forme du moule ne garantit pas qu’on utilise la même recette pour la pâte à gâteau). Le fait de pouvoir y adjoindre n’importe quel format plus complexe du moment qu’il peut être exprimé en XML semblait au départ une consolation suffisante pour des usages plus avancés. On se repose enfin sur l’asynchronisme du système (moissonnage des métadonnées qui sont ensuite stockées dans un nouvel entrepôt pour construire des services) et sur des technologies de type moteur de recherche plein texte à facettes pour fournir le service d’accès.

* enfin du point de vue des contenus, des arguments politiques et institutionnels plaidaient en faveur d’une consultation des documents numérisés sur le site propre de chaque institution, ce qui lui permettait de préserver son image (sa « marque ») et son audience, généralement l’unique indicateur de succès d’un service de bibliothèque numérique.

Ce modèle d’agrégation a servi de base à la construction de la première version du portail Europeana, qui avait défini à cette fin le modèle ESE (Europeana Semantic Elements), une sorte de DC simple augmenté de quelques éléments de provenance. La simplicité technique du modèle a permis une implémentation rapide débouchant sur le moissonnage des métadonnées décrivant des millions d’objets culturels en seulement quelques mois : un « quick win », en quelque sorte. Dans ce modèle, l’interopérabilité sémantique (la fameuse recette de pâte à gâteau mentionnée plus haut) était assurée par des tiers appelés « agrégateurs », chargés pour un domaine national ou thématique de veiller à l’homogénéité des données grâce à des bonnes pratiques ou des traitements.

Ce que le web de données a changé au modèle d’agrégation

Cependant, quasiment à l’époque où ce modèle se mettait en place à grande échelle, on voyait déjà un autre modèle d’agrégation pointer le bout de son nez : le Linked Open Data (web de données en bon français).

Cela n’avait pas échappé aux concepteurs d’Europeana qui rêvaient de créer autre chose qu’un énième portail de métadonnées comme il en existait déjà beaucoup. Dans une démarche de long terme, le modèle de métadonnées EDM (Europeana Data Model) a été imaginé pour prendre la suite d’ESE en décuplant ses capacités. On pensait alors que l’interopérabilité par les liens, inhérente au web de données, était appelée à remplacer à terme l’agrégation par moissonnage.

Mais ce n’était pas si simple…

* du point de vue technique, le web de données apparaît comme la nouvelle génération qui a tout pour succéder à l’OAI-PMH : encore plus intégrée à l’architecture du web, elle transcende les frontières des métiers et des domaines et s’affranchit en théorie de toute les problématiques liées au stockage des données (car dans l’architecture du web, l’endroit où les données sont stockées est rendu abstrait par l’utilisation des URI et de l’hypertexte). Cependant, en pratique, la construction de nouveaux services à partir de ces données continue à nécessiter une forme de moissonnage ; or on ne dispose pas dans le web de données des mécanismes très pratiques fournis par l’OAI-PMH à cette fin (horodatage des données permettant de ne récupérer que les mises à jour, suivi des enregistrements détruits par ex.). Au final tout ce nouvel environnement technique faisait appel à des compétences qui n’allaient pas de soi pour les informaticiens, ce qui a pu freiner les réutilisations et l’agrégation de données utilisant ces principes au-delà de prototypes ponctuels.
* du point de vue des données, le modèle RDF présente l’avantage d’autoriser la description de de ressources non documentaires, les « entités » qui interagissent avec les documents : personnes et autres agents, sujets, lieux, périodes temporelles… Le web de données a contribué à réhabiliter ce qu’on appelait en bibliothèque les « données d’autorité », réaffirmant leur utilité voire leur caractère essentiel pour permettre l’interopérabilité non plus syntaxique mais sémantique (la pâte à gâteau, pas la forme du moule) des données. Le mythe du moteur de recherche magique qui serait capable, par des traitements automatiques, de compenser l’absence de tels référentiels s’est effondré quand on a constaté que les moteurs fonctionnaient quand même beaucoup mieux quand on y ingérait des données plus riches. L’inconvénient de ces modèles réside toutefois dans leur complexité, qui a pu dans certains cas freiner leur adoption, notamment en l’absence de compétences informatiques adéquates. Par ailleurs, la modélisation des vocabulaires ou ontologies destinés à représenter toute la richesse de l’information des institutions patrimoniales et scientifiques est une gageure qui résiste à toute tentative d’unification ou de consensus ; c’est d’ailleurs bien l’esprit du web de données, qui autorise la coexistence ou la cohabitation de plusieurs modèles reliés entre eux.

* du point de vue des contenus : RAS, ils ne sont pas vraiment concernés par cette phase et restent accessibles suivant des modalités plus ou moins similaires au modèle d’agrégation précédent.

Côté Europeana on peut mentionner, outre la mise en œuvre d’EDM au sein d’un nombre croissant de projets thématiques, la création d’un entrepôt en Linked Open Data permettant la redistribution des données en RDF et en SPARQL. Le portail lui-même a migré sous EDM en 2013 mais sa dernière version baptisée « Europeana Collections » ne tire pas encore tout le parti de la richesse du modèle.
A la BnF, data.bnf.fr est né mais reste un petit frère de Gallica se contentant de liens avec son aîné dont il ne bouleverse pas l’existence. Bref, on peut parler d’une phase « d’éveil » qui conduit à examiner sous un jour nouveau les possibles et à faire ressentir le besoin d’un vrai nouveau modèle d’agrégation, dépassant les limites de l’OAI-PMH et tirant les enseignements du web de données.

Vers un modèle de mutualisation

Dans un contexte de moyens contraints mais aussi d’évolution de la technologie et des usages, un nouveau modèle commence aujourd’hui à émerger, basé sur le principe de la mutualisation des investissements et notamment des infrastructures.
* du point de vue technique, ils s’agit de mutualiser les infrastructures du point de vue du stockage des données ou encore des traitements (conversions, diffusion…) Les données passent dans les mêmes tuyaux et les mêmes moulinettes, ce qui représente une économie à la fois en ressources machines et en développement d’outils. Des modèles de type cloud permettent d’effectuer cette mutualisation dans des espaces physiquement communs mais logiquement indépendants (façon moule à madeleines). Il n’y a donc pas forcément agrégation à ce stade, mais elle sera évidemment facilitée par la suite.
* du point de vue des données, l’ambition est de dépasser les contraintes liées à l’adoption d’un modèle ou format commun. On attend des outils nouveaux qu’ils soient suffisamment flexibles pour s’adapter à tous types de formats et qu’ils supportent facilement les conversions de l’un à l’autre : c’est la leçon tirée des étapes précédentes, qui ont démontré qu’il était toujours préférable de travailler les données dans leur format source, qu’aucun format « commun » même riche ne peut remplacer. Le web de données reste un modèle d’interopérabilité prometteur grâce aux URI, aux liens entre les ressources et à la sérialisation JSON-LD, beaucoup plus simple que les syntaxes précédemment utilisées pour exprimer le RDF. Des vocabulaires comme Schema.org visent à permettre de faire du web sémantique comme Monsieur Jourdain faisait de la prose.

* du point de vue des contenus : on commence dans la sphère culturelle à dépasser le paradigme qui voulait que les contenus, pour des raisons politiques, ne soient consultables que sur le site d’origine, position devenue intenable (si elle l’a jamais été) du point de vue des usages. Que ce soit par copie des fichiers ou via des API comme IIIF, qui fournit un mécanisme pour appeler de manière distante des images numérisées avec leurs métadonnées en JSON-LD, la tendance est à l’agrégation des contenus eux-mêmes dans l’interface commune, ce qui permet de mutualiser également les outils complexes que sont les visualiseurs de documents.

Gallica et Europeana, pour continuer sur ces deux exemples, ont toutes deux entamé une mutation progressive vers ce nouveau modèle. Du côté de Gallica, cela se concrétise par l’intégration de documents de partenaires qui n’avaient pas encore trouvé leur outil de diffusion et par la réalisation de bibliothèques numériques en « marque blanche », Numistral et la Grande Collecte. Côté Europeana, le nouveau portail Collections utilise IIIF pour présenter directement sur son site les médias numérisés, avec zoom en haute résolution et feuilletage le cas échéant.

Derrière cette modification en apparence ponctuelle, c’est en fait une refonte complète du modèle d’agrégation qui se profile du côté d’Europeana. Après avoir défini un cadre de publication (Europeana Publishing Framework) et, en partenariat avec DPLA, un cadre juridique, Europeana s’interroge actuellement via le forum des agrégateurs sur le rôle et la fonction de ces derniers. Le projet Europeana Cloud, qui s’est déroulé de 2013 à 2016, permet d’imaginer un avenir où de nombreuses fonctions de stockage et de traitement de données seront mutualisées dans une infrastructure commune, ce qui évitera aux agrégateurs de faire face aux mêmes problèmes en développant chacun des solutions différentes.

Le rôle des agrégateurs évoluerait alors vers une fonction de centre d’expertise au service d’acteurs plus modestes ou disséminés, qui les accompagnerait dans l’agrégation de leurs données directement dans l’infrastructure cible. On pourrait imaginer la centralisation de traitements coûteux et complexes à mettre en œuvre comme les alignements de référentiels ou les enrichissements automatiques de métadonnées. L’utilisation de mécanismes comme IIIF présente l’avantage de conserver la lisibilité des flux d’audience (on comptabilise tout de même des « hits » sur le site fournisseur) tout en favorisant des usages plus fluides. C’est la promesse de pouvoir non seulement centraliser dans les portails la visualisation des contenus, mais aussi constituer plus facilement des bibliothèques numériques de niche, agrégeant et éditorialisant des contenus sélectionnés à un niveau local.

En conclusion : aujourd’hui, demain ou après-demain ?

Sans vouloir avoir l’air de lire dans les entrailles de maquereau, ce que j’ai pu observer ces derniers mois me donne à penser que le nouveau modèle d’agrégation n’est pas encore tout à fait mûr et ne le sera pas avant au moins 3 à 5 ans. Il ne dit pas encore son nom et ressemble aujourd’hui à un patchwork d’initiatives en ordre dispersé dont il est assez difficile de voir le motif global, à moins de prendre beaucoup de recul, ce que j’ai essayé de faire ici. Certains aspects techniques relèvent encore de la promesse et demandent à démontrer leur faisabilité. On pourrait également avoir des surprises et voir de nouveaux dispositifs émerger. Cependant, je suis convaincue que l’on tendra inévitablement vers ce nouveau modèle qui s’installera d’abord en parallèle du modèle OAI-PMH, toujours efficace, et du web de données qui continue à se développer.
A suivre, rendez-vous dans 3 ans ?
En attendant, je me permets de vous solliciter, vous qui avez eu le courage de lire ce long billet jusqu’au bout :
– si vous avez encore le temps de faire de la veille et si vous connaissez d’autres exemples de modèles d’agrégation qui évoluent dans le même sens ou dans un sens différent,
– si vous en savez plus que moi sur les aspects techniques et que cela vous inspire des suggestions ou des réfutations,
– si vous agrégez des données et que ces perspectives vous parlent,
exprimez-vous dans les commentaires ci-dessous, vous aurez ma gratitude éternelle.

Le Web sémantique en 10 mn, 40 mn, 2h et… 2 jours

Un petit interlude publicitaire… Pour ceux qui n’auraient pas le temps ou le courage de lire dans son intégralité l’ouvrage sur le web sémantique en bibliothèque que j’ai commis avec Gautier et Antoine, je tenais à rappeler ici l’existence de quelques alternatives :

Puisque je suis dans la pub, j’en profite pour signaler que la susdite série de vidéos du CNFPT contient d’autres choses intéressantes, et notamment une intervention sur les identifiants pérennes par Sébastien Peyrard. Un visionnage qui pourra utilement être complété par la lecture du vade-mecum sur les identifiants pérennes à l’attention des producteurs de données, réalisé dans le cadre de la feuille de route web 3.0 du ministère de la culture. Celui-ci propose un parcours en 12 questions, illustrées d’exemples, pour bien concevoir ses identifiants pérennes pour le web de données.

#EuropeanaElects : ma campagne sur Twitter

europeana-test

Europeana, je la connais depuis sa plus tendre enfance. En fait, elle n’était même pas encore née qu’on était dans une salle de réunion à Luxembourg, avec quelques collègues dont certains sont depuis devenus des amis, et on parlait d’interopérabilité comme on lance une balle à la passe-à-dix, priant pour qu’elle ne retombe jamais.

Puis il y a eu cette époque où on rêvait qu’Europeana ne soit pas encore un énième portail, où devant une bière sur une place ensoleillée de La Haye on griffonnait sur un bout de papier notre idée du réseau d’informations sémantiques, œuvres, personnes, événements… qui donnerait du sens à l’information culturelle diffusée sur le web. C’est comme ça qu’on s’est lancés dans la création du Europeana Data Model, EDM de son petit nom.

Puis il y a eu l’ère des projets, avec leur cortège de « proposal submissions », « work packages », « deliverables », « prototypes » etc. Ils sont bientôt devenus tellement nombreux que même les organiser et comprendre comment ils s’articulaient les uns avec les autres était devenu un défi. Pendant ce temps, le portail, lui, s’enrichissait de nouvelles fonctionnalités, s’ouvrait à des expositions virtuelles, agrégeait toujours plus de données provenant de toujours plus d’institutions dans toute l’Europe.

Où en est-on aujourd’hui ? Une nouvelle version du portail est en train de voir le jour. Même si on est encore loin de notre rêve initial, les progrès sont énormes. Et surtout, ce qui me paraît beaucoup plus important, le portail n’est que la partie émergée de l’iceberg.

Pour moi, la grande réussite d’Europeana, ce n’est pas d’avoir agrégé toutes ces données (même si je ne dis pas que c’était facile) mais d’avoir fourni une énorme impulsion dans la communauté culturelle en Europe pour permettre la numérisation du patrimoine. Des pays ou des institutions qui n’en auraient jamais fait un axe prioritaire se sont organisés pour obtenir des financements et lancer des projets. Ceux qui s’étaient déjà lancés ont apporté leurs collections mais aussi leur savoir-faire et leur expertise. Cet effort a été transverse (archives, bibliothèques, musées, audiovisuel) et a facilité l’émergence d’une préoccupation pour l’interopérabilité des collections même quand celles-ci sont constituées d’objets par définition uniques. Enfin Europeana a été un ardent promoteur de l’open data.EUfinal01-Cloud-V8-1024x768

La stratégie d’Europeana a évolué pour aller vers une infrastructure numérique partagée dont l’objectif est de servir aussi bien la communauté des professionnels des institutions européennes que celle des usagers. Les données ont été ouvertes en Linked Open Data, et leur redistribution via des dispositifs d’API pour encourager des réutilisations diverses et variées est considéré comme aussi importante, voire davantage, que le portail lui-même. L’ambition est également de partager des outils de traitements de données, d’enrichissement, de transformation et de préservation qui permettront aux institutions qui n’ont pas les moyens de les construire d’en bénéficier et d’enrichir leurs données et leurs services.

Enfin, Europeana est devenu un réseau, une communauté. Cette communauté partage son expertise professionnelle, technique et scientifique mais aussi sa motivation et son implication pour rendre accessible la culture européenne au plus grand nombre grâce au numérique. Construire et animer une communauté est une tâche ardue et parfois ingrate, mais c’est aussi ce qui permet aux idées de naître, de murir, de circuler et finalement de déboucher sur des projets et des réalisations qui peuvent transformer davantage que nos métiers et nos communautés. Transformer le monde par la culture, c’est l’ambition d’Europeana.

EUfinal07-Impact-V9Il ne faut pas oublier qu’Europeana est née d’une idée politique : elle a encore les moyens, grâce aux énergies qu’elle fédère, de peser en faveur des politiques culturelles des États de l’Europe et d’aider à mobiliser des moyens pour continuer à les développer. C’est parce que je crois sincèrement que sans Europeana, nous ne serions pas où nous en sommes aujourd’hui en matière de développement de l’accès numérique à la culture, qu’il était important pour moi de faire partie de l’association et de candidater pour devenir membre du conseil. On m’a invitée à faire campagne pour les élections qui se dérouleront en ligne du 3 au 9 novembre : c’est l’occasion pour moi de (re)poster sur Twitter quelques liens et idées sur Europeana. A suivre sur #EuropeanaElect.

Le livre numérique en bibliothèque

Il y a quelques mois, j’ai eu la chance d’être invitée par les organisateurs du cycle « Bibliothèque en débat » (à savoir Martine Poulain, qui dirige la collection « Bibliothèques » au Cercle de la Librairie, et mes collègues de la direction des collections de la BnF) à participer à la séance portant sur le livre de Laurent Soual, Le livre numérique en bibliothèque : état des lieux et perspectives. Y participait également Guillaume de la Taille, en charge de la mise en œuvre du projet PNB au sein des bibliothèques de la ville de Paris. Vous pouvez réécouter le débat (audio, 1h24) sur le site de la BnF. A l’époque, je m’étais promis d’écrire une revue du livre de Laurent Soual, mais je n’en ai pas trouvé le temps.

Aujourd’hui, à moins de vivre dans une grotte, vous avez probablement remarqué que le service de prêt numérique lancé par les bibliothèques de la ville de Paris mi-octobre suscite quelques débats dans la communauté professionnelle. C’est donc l’occasion de ressortir le livre de Laurent Soual, qui constitue une excellente synthèse et un panorama très complet des problématiques posées par le livre numérique, pas seulement en bibliothèque d’ailleurs. On y remonte à l’origine de l’historique des initiatives actuelles, on y décortique le cadre législatif et on y décrypte le vocabulaire technique, on y présente les nombreux acteurs de la complexe chaîne du livre numérique, et on y détaille les modalités d’acquisition pour les bibliothèques, en France et à l’étranger. Pour le bibliothécaire qui veut se lancer dans le sujet et avoir une vue d’ensemble des enjeux, c’est un excellent point de départ.

Bien sûr, le livre vous donnera quelques clefs sur le projet PNB (Prêt numérique en bibliothèque), comment il s’est élaboré et quels en sont les acteurs et les contraintes. Mais il aborde aussi des modèles différents reposant sur des acquisitions de bouquets et de l’accès en streaming. En effet, PNB n’est ni le seul ni le premier service permettant de mettre à disposition des livres numériques dans les bibliothèques ; fort heureusement, d’ailleurs, car ce qu’il propose  à la fois en termes de contenus et de mode d’accès (le fameux système des « jetons ») n’est pas adaptés aux besoins, par exemple, des bibliothèques universitaires et de leurs usagers étudiants et chercheurs.

En fait, PNB cherche à répondre à une problématique précise : celle du prêt d’ouvrages principalement destinés à une lecture linéaire, nomade et pas nécessairement connectée (par ex. sur liseuse), de type lecture publique. Le dispositif vise donc surtout les ouvrages de librairie courante et notamment la fiction récente, ce qui a nécessité la recherche d’un consensus complexe avec les acteurs dont le modèle économique repose sur la commercialisation de ces ouvrages.

La réception par le public des premières initiatives comme Bibook à Grenoble (étude d’usage en cours de publication) semble démontrer qu’il existe bel et bien un public et des usages pour cette offre ciblée. Toutefois, cela n’oblitère en rien le besoin d’autres modèles pour des usages d’étude ou de recherche, ou tout simplement des pratiques de lecture plus tournées vers la « longue traîne » auxquelles le fonds documentaire actuellement proposé par PNB ne répond pas et qui impliquent pour les bibliothèques des durées d’usage beaucoup plus longues.

Pour en savoir plus sur PNB, je vous conseille de lire les comptes-rendus de l’association CAREL (dernier point en février 2015), et pour plonger dans le débat : le point de vue des bibliothécaires expérimentateurs de PNB sur lettrenumeriques.be et le récapitulatif fouillé publié par le collectif SavoirsCom1.

Big data et bibliothèques

Le big data (« mégadonnées » pour ceux qui veulent parler français) ce n’est pas tout neuf, cela fait quelques années qu’on en parle ; d’ailleurs, le Gartner hype cycle le place en 2014 sur la pente descendante qui va plonger dans le ravin de la désillusion. J’en déduis que c’est le bon moment pour les bibliothèques de commencer à s’y intéresser sérieusement  – mais non, pas parce que les bibliothèques ne s’intéressent qu’à ce qui est dépassé, mais parce qu’on commence à voir au-delà du « buzz » pour se diriger vers le plateau de la stabilité.

En tout cas, c’est le moment que j’ai choisi pour ma part pour lancer une veille sur le sujet. D’avance je sollicite l’indulgence des éventuels lecteurs du Figoblog, ce travail étant rétrospectif et réalisé dans un temps limité. Si vous avez des critiques ou des références intéressantes que j’aurais loupées, n’hésitez pas à les mentionner en commentaire.

D’abord quelques éléments de définition (vous pouvez aussi lire Wikipédia) : le big data se caractérise par la règle des 3 V : volume, vélocité, variété. On parle de masses énormes de données (de l’ordre du téra ou du péta octet, voire plus) produites dans une temporalité de l’ordre de la seconde et qui peuvent être de toute sorte : structurées ou non, du texte, de l’image, du mail, n’importe quoi. L’exemple emblématique c’est Twitter qui génère 7 téra-octets de données par jour (toujours selon Wikipédia).

A cause de ces 3 V, les données en questions ne sont pas manipulables avec des outils classiques comme les bases de données relationnelles. Et ce d’autant que l’enjeu est de les exploiter en temps réel (l’exemple typique étant l’analyse des données de la bourse par les traders, où tout peut se jouer dans une nanoseconde). Des outils spécifiques ont donc été créés pour permettre de les stocker et de paralléliser les requêtes, le plus connu étant sans doute le framework Hadoop.

Pour savoir en quoi cela peut nous intéresser, nous bibliothécaires, je vous invite à lire par exemple cette introduction de base au big data sur le site de l’ALA (2013) ou à feuilleter ce diaporama de la Library of Congress (2012). Si vous avez un peu plus de temps, un cours en ligne (environ 1h, 2013) est disponible sur le site Digitization 101 (sur lequel je n’avais pas mis les pieds depuis une éternité, ça fait plaisir de retrouver Jill en vidéo !) Vous allez me dire que je ne vous propose que des vieux trucs en anglais… alors vous pouvez tenter les vidéos du colloque « Quelles stratégies de recherche face à la nouvelle massification des données » organisé par l’ADBU en décembre 2014. Cependant, on y trouve plutôt un panorama des enjeux stratégiques que des explications ou solutions techniques.

Pour synthétiser, j’identifie aujourd’hui trois pistes de réflexion pour les bibliothèques.

La première réside dans le fait que les « data » sont de plus en plus un objet que les bibliothèques de recherche en particulier vont être amenées à collecter et conserver, en tant que produit du travail des chercheurs, au même titre qu’on le faisait auparavant pour leur production documentaire imprimée puis numérique (articles, thèses, etc.). Or ces données ont des caractéristiques différentes des documents : elles se présentent sous la forme de flux et non de stock (« data is a lifecycle » ) et nécessitent des outils d’analyse pour pouvoir être utilisées.
Un exemple d’application de ces réflexions à la bibliothèque de l’Université de San Diego est détaillé dans cette vidéo de 30 mn (déc. 2013) :

Deuxième piste de réflexion : l’utilisation du big data pour analyser les statistiques de consultation des bibliothèques en vue de fournir de nouveaux services aux usagers ou aux bibliothécaires. C’est ce que fait le réseau des bibliothèques de Singapour : un réseau de bibliothèques publiques qui a développé l’utilisation du big data pour analyser les statistiques des prêts en lien avec les données bibliographiques, et ainsi proposer à ses usagers des recommandations.
Cette technologie est aussi utilisée pour gérer la politique d’acquisition en prenant en compte des données telles que le profil sociologique des lecteurs qui fréquentent chaque bibliothèque du réseau, les contraintes de place et le taux de rotation des collections.
L’article présente des développements intéressants sur la méthodologie de mise en place « des » projets big data : en effet, chaque application big data pour un usage particulier est perçue comme un projet à part entière, avec son équipe propre qui travaille sur le profilage des données à utiliser.

Enfin, la troisième piste c’est l’évolution des usages des chercheurs. Je suis tombée un peu par hasard sur ce compte-rendu d’une journée d’étude tenue par des sociologues à la British Library (2013) qui me semble bien illustrer le problème. Dans certaines disciplines, notamment en sciences humaines, l’enjeu de l’exploitation des collections par les chercheurs est en train de se déplacer : ils ne veulent plus « lire » le contenu des documents mais exploiter de façon globale la collection et son organisation par les bibliothécaires, qui devient signifiante en tant que telle. Savoir combien de documents concernant tel ou tel sujet ont été publiés entre telle ou telle date, combien d’occurrences du nom d’une personne, d’un lieu ou d’un concept apparaissent dans un corpus donné deviennent des clefs de recherche aussi intéressantes que ce qu’on pourrait apprendre en dépouillant dans le détail ces documents ou ces corpus.
Dès lors, la question va être de savoir si les bibliothèques seront capables d’offrir aux chercheurs un service de big data sur les collections qu’elles conservent : leur permettre de définir leur propre corpus, leurs critères et d’appliquer des outils d’analyse pour extraire de nouvelles informations à partir des données.

Ayant eu récemment le plaisir de rouvrir le dossier Archives de l’Internet, j’ai enfin réussi à entrevoir l’étape qui prendra la suite de la vision que j’avais eue en 2009 lors de la journée IIPC. Il me manquait alors l’idée que les outils qui permettraient d’étudier cette collection ne se limiteraient pas à la restituer telle quelle ou à l’indexer en plein texte, mais nécessiteraient de la triturer sous tous les angles en extrayant, autant que possible, les data. Si dans les archives du Web il y a de la donnée structurée (par exemple celle qui serait issue du Web de données…) cela pourrait bien être un atout de premier plan. Je pense que j’aurai l’occasion de creuser cette idée dans les mois à venir.

Je vais conclure cette réflexion avec cet article récent sur le big data en France (via GFII) qui s’inquiète de ne pas le voir décoller. On pourra aussi utilement feuilleter la feuille de route big data du ministère de l’Économie pour achever de se convaincre que les bibliothèques françaises ont encore quelques années lumières à parcourir avant d’apparaître dans le paysage. Mais ce seront des années intéressantes.

Un dernier lien à ne cliquer que si vous êtes un geek hardcore, trouvé sur le profil twitter de Got que je remercie comme d’habitude pour les discussions sur le canapé.

Réflexion autour de Bibframe et la formation au Web sémantique

Je n’avais jamais eu le temps de me pencher véritablement sur Bibframe, ce « format » développé par la bibliothèque du congrès dans le cadre de sa transition bibliographique, avec pour objectif annoncé de « remplacer les formats MARC ». J’ai pu récemment réparer ce tort grâce à une étude d’une collègue de la BnF (merci Suzanne) suivie d’une très riche discussion avec plusieurs autres collègues (privilège des grandes maisons !)

Au départ, l’idée de Bibframe nous a laissés plutôt songeurs. Pour commencer, peut-on vraiment parler de « format » ? Naturellement, entre gens habitués depuis plusieurs années à manipuler des vocabulaires RDF et des triplets, nous avons plutôt employé le terme de « modèle ». Or, ce modèle est assez troublant. Sans se raccrocher explicitement à d’autres modèles/vocabulaires comme FRBR ou Dublin Core, il ne paraît pas non plus incompatible avec eux.
En termes d’usage, difficile également d’avoir les idées claires : Bibframe serait-il un « format » de production ? Dans ce cas il ne paraît pas assez détaillé. Un « format » d’échange ? Mais alors pourquoi n’avoir pas privilégié un vocabulaire existant et déjà bien implanté, comme le Dublin Core… Serait-il alors un « format » destiné principalement à transformer en graphe des notices MARC existantes ? Hypothèse peut-être la plus plausible, mais la souplesse du modèle est telle qu’il permettrait de le faire de mille façons différentes.
Au terme de la discussion, Bibframe ne nous semblait pas avoir vraiment de sens dans une perspective technique. Rien de ce qui est fait dans Bibframe ne semble impossible à faire en combinant des vocabulaires existants comme par exemple dans le modèle de données de data.bnf.fr. On a donc l’impression d’avoir affaire au énième standard qui vient se surajouter à tous les autres pour essayer de les réconcilier… et ne fait que créer une nouvelle couche de complexité (cf cette fameuse BD).

Cependant, en y réfléchissant en résonance avec divers événements, j’ai commencé à regarder les choses autrement.

D’abord, il y a eu Semweb.pro, le mois dernier, et la conférence de clôture de Phil Archer. Dans celle-ci, il a émis l’idée que l’important à transmettre à nos développeurs et autres professionnels n’était pas « faites du Web sémantique » car dans la plupart des cas, ils n’avaient en fait pas besoin du niveau de complexité qui est associé à cette technologie. Pour, lui il suffit dans la plupart des cas de se limiter à trois choses :
– attribuer des URI,
– penser en graphe,
– faire du JSON-LD (cette sérialisation très simple de RDF semble être la meilleure promesse d’adoption par les développeurs depuis l’invention du Web sémantique).
Alors ils feraient du Web sémantique sans y penser, comme Monsieur Jourdain faisait de la prose.

Ensuite, j’ai participé le 26 novembre à la 2e saison de la formation du CNFPT « les catalogues au défi du Web ». Au cours des différentes discussions, notamment la très intéressante table ronde de l’après-midi, je réfléchissais au fait qu’il ne serait ni possible, ni utile de former tous les catalogueurs ou tous les bibliothécaires au Web sémantique.
Je me suis souvenue qu’à l’époque où j’ai fait l’ENSSIB, nous avions des cours sur la modélisation des bases de données relationnelles et sur le requêtage SQL. A part pour les tordus dans mon genre qui ont besoin de comprendre comment fonctionnent les choses sous le capot, cela n’avait aucun intérêt. Difficile de placer le curseur de l’apprentissage technologique pour des gens qui n’auront pas à pratiquer au quotidien… C’était ce qu’on appelait dans le temps « le niveau technico-stratégique » : le niveau de base de connaissance technique qui permet de comprendre et donc de décider. Mais tout le monde n’en a pas besoin.

En effet, après avoir déployé pas mal d’énergie à essayer de former des bibliothécaires au Web sémantique (on a même écrit un bouquin, c’est dire) je suis aujourd’hui convaincue que la plupart d’entre eux peuvent vivre très confortablement sans savoir ce qu’est le Web sémantique ou comment ça marche. Par contre, ils manipuleront et pour certains, créeront de la donnée en RDF, mais façon M. Jourdain, sans en avoir conscience.
Finalement, seuls les modélisateurs de données ont vraiment besoin de connaître et comprendre en détail le Web sémantique et ils sont assez peu nombreux. D’ailleurs, cela fait peu de différence avec la situation antérieure : combien de catalogueurs savent qu’en fait de MARC, il produisent en réalité de l’ISO 2709 stocké dans les tables d’une base de données relationnelle ?
Pour revenir à Bibframe, je pense qu’on pourrait interpréter de cette façon le besoin d’avoir un « format » pour remplacer MARC.
Si on souhaite que les catalogueurs et les développeurs de SIGB (ces deux groupes en priorité) manipulent des URI et des triplets sans avoir besoin d’une formation extensive à RDF, SPARQL, OWL etc., et sans même avoir besoin de maîtriser les 5 vocabulaires de base du Web sémantique, nous avons besoin d’un outil (appelons-le « format ») qui permette d’expliquer de manière simple le nouveau modèle des données bibliographiques. Nous avons besoin qu’il soit suffisamment homogène et cohérent pour qu’on puisse expliquer ce format, uniquement ce format, et que dans la phase de transition cela permette aux catalogueurs et aux développeurs de SIGB d’acquérir une maîtrise des données suffisante pour les tâches qu’ils ont à effectuer. Enfin, nous avons besoin que ce « format » ait un nom afin de pouvoir faire passer aux managers des bibliothèques et aux décideurs un message simple : « on va remplacer MARC par X ».

Alors, pourquoi pas Bibframe ?
Bibframe est un outil qui est déjà associé à la transition bibliographique et à l’idée qu’il y aura un « après-MARC » que l’on doit commencer à construire dans les bibliothèques. Il est suffisamment souple pour être compatible avec les anciens formats (MARC aux différents parfums) et les nouveaux modèles (FRBR & Co). Bien sûr il manque encore pas mal de choses dans Bibframe (rien n’est fourni, par exemple, pour décrire les autorités) mais on pourrait le compléter ou l’étendre, l’adapter à nos besoins, en faire un profil français, voire établir ses correspondances avec d’autres vocabulaires du Web sémantique que nous utilisons par ailleurs.

Bibframe n’est en fait pas un format mais un « cadre » (framework, comme son nom l’indique) permettant d’accompagner la transition vers le Web sémantique pour les bibliothèques.
A l’heure où nous entamons en France notre propre transition bibliographique nationale, nous aurons dans doute également besoin d’un outil qui serve de support à la formation des producteurs de données et des développeurs, et qui soit plus simple que la machine de guerre Web sémantique : des URI, un graphe, une sérialisation simple.
Je ne sais pas si Bibframe sera cet outil mais on pourrait en tout cas s’inspirer de la démarche.

Faisons-le arriver !

Et voilà, après un an de travail et même plusieurs années de préparation, la journée satellite de l’IFLA sur le Web de données en bibliothèque est passée.

Nous avions intitulé cette journée « Let’s make it happen! » (titre que les collègues de la BnF ont fort heureusement traduit par « du projet à la pratique » et pas « faisons-le arriver » – la traduction est un art… ;-) parce que nous voulions que cette journée aborde le Web de données sous l’angle des mises en œuvre concrètes et non de la recherche ou de l’expérimentation.

Les participants ont bien joué le jeu, en choisissant de présenter leurs réalisations du point de vue de la gestion de projet (dans le cas de data.bnf.fr) ou du retour d’expérience (avec TEL, la NDL du Japon ou encore Electre).
J’ai trouvé très intéressante l’analyse proposée par Lukas Koster et Rurik Greenall, qui ont détaillé de façon plutôt abstraite les différents chemins qu’il est possible d’emprunter pour implémenter un projet de Web de données en bibliothèque, du do-it-yourself à l’utilisation de logiciels commerciaux en passant par l’open-source.
La question des autorités était omniprésente, de même que celle des vocabulaires qui ont été abordés sous différents angles (les créer, les maintenir, les utiliser) lors de la session de l’après-midi.

En parallèle de la conférence, nous avions également organisé deux ateliers, l’un destiné aux débutants et l’autre aux managers, afin de permettre des échanges plus interactifs.
Le tutoriel « débutants », animé par Ted Fons d’OCLC, a fait apparaître le fait que trois ingrédients sont indispensables pour faire du Web de données en bibliothèque : des personnes compétentes, des données et des outils. Si on n’a pas au moins deux des trois, mieux vaut s’abstenir !
Pour ma part j’animais avec Gildas Illien le tutoriel pour les managers. Nous avons essayé de donner quelques clefs pour susciter l’adhésion à un tel projet à l’intérieur d’une organisation, aussi bien auprès d’équipes opérationnelles comme les catalogueurs qu’auprès des décideurs. Les discussions ont été nourries et fort riches.

Enfin, j’avais invité plusieurs fournisseurs de logiciels et de services à clore la journée en partageant autour d’une table ronde ce que signifiait pour eux faire du Web de données en bibliothèque.
Pour Shlomo Sanders, d’Ex-Libris, la recette consiste à engager les développements internes de leurs logiciels dans la direction du Web sémantique, par exemple en utilisant systématiquement des URI. Pour Richard Wallis, d’OCLC, il s’agit de passer d’une logique orientée notice ou document à une logique qui s’appuie sur les « entités » (personnes, œuvres, concepts…). Enfin Nicolas Chauvat de Logilab a décrit ce que le Web pouvait apporter aux bibliothèques en termes de scalabilité et d’extensibilité.

Au final une journée réussie, si l’on en juge par les retours des participants. Les articles et résumés sont déjà en ligne, les présentations et captations vidéo des interventions devraient les rejoindre prochainement.
Un grand merci à tous ceux qui ont participé à l’organisation d’une façon ou d’une autre et à tous les participants qui étaient nombreux au rendez-vous.

Cette semaine nous poursuivons nos travaux à l’IFLA avec, en ce qui me concerne plus particulièrement, deux réunions du Semantic Web SIG :
– lundi à 15h, un « business meeting » c’est-à-dire une réunion de travail. Comme les réunions des standing committee, celle-ci est ouverte à toutes les personnes intéressées par l’avenir du groupe, ses activités… Nous évoquerons en particulier la nécessité de nommer un nouveau responsable de groupe, puisque je vais passer la main.
– Mardi à 16h c’est la « session ouverte » cette fois : au menu, discussions en petits groupes sur des sujets liés au Web de données et au Web sémantique, un peu comme l’année dernière.

J’espère que vous serez nombreux à venir parmi les 1000 français qui participent à ce congrès lyonnais !