Et au fait, le LLD XG ?

Il y a quelques mois, j’annonçais ici la naissance d’un groupe au W3C sur les bibliothèques et le Web de données. Depuis, silence radio… et pour cause ! C’est un peu prenant, comme activité. D’ailleurs, ceux d’entre vous qui auraient essayé de suivre via la liste de discussion se seront rendu compte qu’il s’y passe tellement de choses que c’est parfois difficile de suivre. Même pour les membres du groupe, et même pour les co-chairs, alors ;-)

Du coup je me suis dit qu’un petit point d’étape à mi-parcours, et en français dans le texte, ne serait pas inutile. Oui à mi-parcours, on a déjà passé la moitié de l’espérance de vie normale de ce groupe…

Depuis le mois de mai, le groupe se réunit chaque semaine pendant une heure au téléphone. Vous me direz, comment on fait pour tenir une réunion d’une heure, avec en général entre 10 et 20 personnes en ligne, par téléphone et dans une langue étrangère pour la la plupart des membres du groupe ? Et ben, on y arrive grâce à l’infrastructure géniale du W3C (et un peu d’organisation).
Sur le wiki vous trouverez le running agenda, qui contient toutes les actions en cours et les sujets de travail actifs. Chaque semaine, celui qui préside la réunion le met à jour et envoie un sous-ensemble, les points qui seront traités, sur la mailing list.
Pendant la réunion, on est au téléphone et en même temps sur un canal IRC qui permet aux robots du W3C (Zakim et ses amis) de nous rejoindre et de gérer les aspects « logistiques » de la réunion : passer à la parole à ceux qui la demandent, couper les micros qui font trop de bruit, et prendre des notes. Enfin, c’est le scribe (une fonction tournante) qui écrit directement dans le canal IRC tout ce qui se passe : comme ça les minutes sont prêtes, ou presque, dès que la réunion est finie.

Je ne vous recommande pas la lecture des minutes de réunion, qui sont un peu dures à comprendre quand on n’a pas participé, mais il existe une page où sont récapitulés tous les sujets qui ont été traités pendant les réunions, ce qui permet de voir un peu l’avancement du groupe.

En octobre, nous nous sommes rencontrés à Pittsburgh pour le « face to face », seule et unique réunion présentielle dans la vie du groupe. Cette réunion a duré 1 jour et demi, et était elle aussi assistée par Zakim, avec des minutes extensives.
Mais bon, pour que cela soit compréhensible pour le reste du monde, nous avons produit un résumé des résultats de cette réunion.
Principalement, ce que nous avons fait c’est que nous avons regroupé les 42 (et plus) « use cases » que nous avions reçu en plusieurs « paquets » thématiques, les use case clusters, sur lesquels nous travaillons actuellement (voir ci-dessous).
Nous avons aussi travaillé sur la liste des sujets intéressants (« topics ») que nous avions identifié en lançant le groupe, pour essayer d’évaluer ce qui serait faisable dans le groupe d’incubation lui-même, et ce qui devrait faire l’objet de recommandations pour des actions ultérieures.

Depuis, nous bossons dur sur les use case clusters. L’objectif est, en partant de cas réels identifiés dans les use cases, d’essayer de couvrir plus ou moins tout le spectre des problématiques du Web de données en bibliothèque… pas une mince affaire !

Le cluster Bibliographic Data s’intéresse au cœur de cible des données de bibliothèques : la notice bibliographique. Il aborde des sujets tels que l’évolution des modèles et des formats, les problématiques de duplication et d’échanges de notices, et bien sûr, une discussion qui fait rage sur la liste en ce moment : dans un contexte de Web de données, peut-on encore parler de « notice » ?

Le cluster Authority data (la page est encore vide, mais ça va venir ;-), qui porte sur les données d’autorité, touche des problématiques assez différentes. Il fait l’objet d’une discussion pour savoir si quand on parle d’autorités, il est question des « choses » elles-mêmes ou juste des « noms » des choses. En fait, une discussion intensive autour de VIAF sur la liste a conduit à une sorte de consensus sur un modèle qui, à partir d’une notice d’autorité (par ex. une personne), produit un ensemble d’assertions reliées entre elles, dont certaines portent sur la personne en tant qu’entité, et d’autres sur son « label » (sa forme, on dirait en français) et les caractéristiques de cette forme.

Le cluster Vocabulary alignment porte sur l’utilisation de vocabulaires reliés entre eux pour améliorer l’interopérabilité entre des données qui sont décrites suivant des standards différents.
En fait, il s’avère que ce terme de « vocabulaire » était sujet à ambiguïté, ce qui a conduit, là encore, à tout un tas de discussions sur la liste, et débouché sur cette définition, dont nous ne prétendons pas qu’elle est globalement parfaite, mais plutôt qu’elle est suffisamment claire pour servir les besoins de notre groupe, à savoir, produire un rapport à peu près compréhensible pour des bibliothécaires ;-)
Au-delà de ça, il s’agit d’identifier la façon dont l’utilisation des technologies du Web sémantique pour aligner des vocabulaires va permettre d’améliorer l’expérience de l’utilisateur en terme de recherche et de navigation (search and browse). Bien sûr, cela ouvre aussi des perspectives pour améliorer ces vocabulaires eux-mêmes.

Le cluster Archives and heterogeneous data est un ensemble de cas qui touchent à la convergence entre des données au-delà des bibliothèques (archives, musées, etc.) en particulier dans des contextes où on essaye d’agréger ou de fédérer des grosses quantités de données.
C’est celui sur lequel j’ai travaillé donc je ne suis peut-être pas tout à fait objective… Mais à mon avis, son intérêt principal est de faire émerger le besoin, pour ce type de données, d’utiliser ce que les archives appellent le contexte (ou les bibliothèques, les autorités), bref un réseau d’informations sémantiques, pour relier des données qui sont différentes, qui décrivent des ressources différentes, mais qu’on voudrait pouvoir connecter quand même pour offrir une dimension de navigation à l’utilisateur.
Dans ce cluster, on touche aussi à l’intérêt du Linked Data pour des données non bibliographiques et à des fins professionnelles (l’utilisateur est le bibliothécaire ou l’archiviste).

Le cluster Citations travaille sur la notion de référence bibliographique. Après avoir posé une définition à plusieurs niveaux, il s’est attaché à imaginer ce que le Linked Data pourrait apporter comme enrichissements à la notion de citation telle que nous la connaissons actuellement : notamment en permettant l’accès direct à la ressource citée, ou en ajoutant des liens typés permettant d’être plus précis sur la relation entre le document citant et le document cité. La problématique des formats de citation est à rapprocher de celle des données bibliographiques.

Le cluster Digital Objects fait le tour des besoins liés à la publication d’objets numériques en ligne, l’accent étant mis sur la nécessité de pouvoir regrouper des objets, les enrichir, les parcourir et les réutiliser. Derrière la notion de regroupement on retrouve celle de structuration des objets complexes, avec notamment la mention d’OAI-ORE.

Ces 6 clusters étaient ceux qui avaient émergé de la réunion « face to face », mais par la suite nous avons été amenés à en créer deux autres : Collections qui traite des collections de bibliothèques et aussi de la problématique de la localisation des objets physiques, et Social Uses qui vient juste de lancer un appel à contributions.

Voilà, nous en sommes là ! Le travail sur les clusters est en train de se terminer, et je suppose qu’ensuite, nous commencerons à l’intégrer dans l’embryon de ce qui sera notre rapport final.