Un an en un billet

Ah ah, vous pensiez que le Figoblog était mort. Vous m’avez croisée lors d’une conférence et entendu parler de « feu mon blog ». Vous pensiez que le seul moyen d’être encore au courant de mes faits et gestes était de vous abonner à mon compte twitter. Mais non ! Je m’étais donné un an pour déclarer pour de bon sa mort clinique, et le voici qui sursaute, à l’approche de l’IFLA. Bon sang un an déjà, et ce n’est pas comme s’il ne s’était rien passé. Je vous propose de revivre cette année en accéléré en un billet…

17 août 2011. Lors du congrès de l’IFLA à San Juan, Puerto Rico, se réunit pour la première fois le nouveau groupe d’intérêt de l’IFLA sur le Web sémantique (SWSIG). Une centaine de personnes ont assisté à ce qui fut l’acte de naissance de ce groupe (sa fondation ayant été ratifiée officiellement par l’IFLA quelques mois plus tard, ce qui lui a permis d’être doté d’une page web bien à lui). Au programme de cette réunion, une présentation du rapport final du LLD XG (voir ci-dessous), un rapport d’avancement sur les activités de normalisation de l’IFLA dans le domaine, et une série de courtes présentations montée quasiment au débotté avec les personnes présentes (voir les diapos en ligne). Ce fut une session très réussie.

18 août 2011. D’ailleurs il ne faut pas croire que je me suis arrêtée de bloguer, lors de ce congrès de l’IFLA 2011. Simplement je l’ai fait sur un autre blog, celui du CFI.

8 septembre 2011. Dans le cadre du « meetup web sémantique », rencontre dans la salle Piazza du Centre Pompidou sur le thème « Patrimoine et Web de données » à l’occasion duquel j’ai pu parler du projet qui a occupé mes jours, mes nuits, mes week-ends depuis un an (comment ça j’exagère ??) à savoir le Centre Pompidou virtuel. Plus d’infos à ce sujet un peu plus loin. En tout cas grâce à l’IRI et à son polemic tweet, vous pouvez revivre ce moment en vidéo ici.

21 septembre 2011. Je suis à La Haye pour la conférence DC2011. Le vendredi, dans une mémorable keynote (ben oui je suis contente, c’était ma première !) j’ai parlé de ratatouille, mis le feu à la BBC et raconté des contes pour enfants à un auditoire mal réveillé mais ravi.

12 octobre 2011. Je suis à la foire du livre de Francfort, cette fois pour présenter le Centre Pompidou virtuel à l’association internationale des éditeurs de musées. Un événement qui ne semble pas avoir laissé de traces en ligne.

25 octobre 2011. Publication officielle du rapport final du Library Linked Data Incubator Group du W3C (plus connu sous le petit nom de « LLD XG ») : enfin le terme d’une année de travail très intense !
Le rapport se compose en fait de 3 documents :
– le rapport final ;
– une première annexe qui liste les vocabulaires et données déjà disponibles ;
– une seconde annexe qui reprend et synthétise les cas d’utilisation réunis par le groupe pour élaborer son rapport.
Le rapport final est en cours de traduction en français.

29-30 novembre 2011. J’ai failli aller à Hambourg pour assister à SWIB mais en fait non. Consolation en vidéo ici : 29/11 et 30/11.

8 décembre 2011. L’ADBS et l’EBD organisent une journée d’étude intitulée « L’accès à l’information dans tous ses états ». Devinez ce que j’y présente… oui, le Centre Pompidou Virtuel (eh toi là au fond qui bâille ! je t’ai vu !)

14 décembre 2011. J’ai failli aller à Madrid pour participer à une rencontre sur le Linked Data organisée par la Bibliothèque nationale d’Espagne pour présenter son projet datos.bne.es mais je suis retenue à Paris par d’autres obligations. On trouve le compte-rendu de cette rencontre narrée sur le blog Open bibliography and Open Bibliographic Data.

13 janvier 2012. Un petit saut à l’INHA pour la journée d’étude « Signes et balises : L’édition numérique en histoire de l’art, réalisations, projets, enjeux ». C’est marrant comme ce genre d’événements ne laissent pas de traces en ligne.

13 mars 2012. L’hiver a été long, mais pas improductif : on a pu assister à plusieurs des intéressantes conférences des séminaires de l’IRI : celui sur l’éditorialisation, et celui sur la muséographie. Et voici que j’y suis invitée pour présenter…. devinez quoi… (j’espère que vous aimez le comique de répétition). En vidéo ici (je vous laisse chercher pour retrouver les autres vidéos !)

19-20 avril 2012. Je suis invitée à Aix pour deux passionnantes journées sur le thème de l’Open Data culturel, organisée par l’AGCCPF-PACA (inutile d’essayer de m’extorquer la résolution du sigle). Ah, Aix-en-Provence, sa météo clémente, le charme de ses rues médiévales… (je préfère ne pas dire de quoi je parlais ;-) Yannick Vernet explique en détail sa démarche sur le c-blog.

2 mai 2012. Je participe à la conférence SemWeb.pro où je répète infatigablement la même chose. Mais cette fois devant un parterre de geeks, ça change. Et puis ça contribue à la présence d’une représentation féminine au sein des intervenants, il y en a besoin.

4 mai 2012. OCLC annonce la mise à disposition public de VIAF sous licence ouverte. Le fichier peut être téléchargé en RDF ou dans d’autres formats moins connus comme MARC21, depuis l’adresse http://viaf.org/viaf/data/. Les biblio-geeks font des bonds.

22 mai 2012. Il y aura une vie après MARC21. En tout cas, la Library of Congress y travaille… avec Zepheira, elle élabore un modèle qui devrait permettre de lancer la grande discussion que nous attendons tous sur la transition des formats MARC vers le Web de données.

20 juin 2012. Worldcat est publié en Linked Data. Ah en fait non, ils ont juste mis du Schema.org dans les pages. Déjà pas mal, vous me direz. Plus d’info chez Richard Wallis, célèbre évangéliste du biblio-web-sémantique qui a quitté Talis pour rejoindre OCLC en avril.

21 juin 2012. Invitée à ouvrir la 2e journée du colloque « Patrimoine et humanités numériques » organisé par Paris 8, je fais preuve d’un incroyable sursaut d’originalité et décide de parler de réintermédiation numérique par les données. Pour ceux que ça intrigue, j’ai écrit un beau texte qui devrait être mis en ligne quelque part (patience…)

29 juin 2012. Retour à la BnF le temps d’une journée : la fameuse journée annuelle BnF/Afnor qui s’intéresse cette année au livre numérique. Je modère une table ronde sur les métadonnées. Tout est révélé ici.

En juillet, j’ai pris quelques vacances (en partie consacrées à la rédaction de mon intervention pour le séminaire INRIA du mois d’octobre sur le Web sémantique) avant de repartir pour une nouvelle année sur les chapeaux de roue. Toutes mes excuses à tous les gens qui m’ont invitée quelque part et à qui j’ai dit non parce que j’étais déjà trop occupée. Vous voyez que je n’ai pas menti. Pour un commentaire en temps réel des événements à venir, rendez-vous sur twitter

Bye bye, communauté Louvre

Il vous reste exactement une semaine, si vous ne l’avez pas encore fait, pour aller visiter une dernière fois le site Communauté Louvre avant qu’il ferme pour de bon ses portes. Enfin, ses pages.

Créé il y a moins d’un an grâce à une opération de mécénat, le site s’était donné pour objectif de permettre aux internautes intéressés par le musée du Louvre de s’exprimer et de partager leur propre regard sur les œuvres.

Derrière l’affirmation que cette expérimentation a servi à expérimenter des dispositifs qui seront désormais intégrés au site louvre.fr, on ne peut pas s’empêcher de s’interroger sur le constat d’échec, ou au moins de déception que révèle cette fermeture.

Qu’a-t-on appris avec Communauté Louvre ?
On a appris qu’il fallait constituer la communauté avant de construire l’outil, si efficace soit-il. Que le participatif repose non pas sur Monsieur Tout le Monde, mais sur des gens qui ont un intérêt à participer.

En direct de l’IFLA

Il faut que je songe a remplir mes devoir de blogueuse IFLA (fonction attestée par le ruban bleu que je porte sur mon badge) et ne pas céder à la facilité en me contentant de réflexions en moins de 140 caractères…

Le congrès a commencé comme à son habitude intensément, avec les réunions des comités permanents samedi matin, le caucus des francophones samedi soir, la session d’ouverture et les premières sessions thématiques dès dimanche. Pas de week-end pour les congressistes ! (pas de jour ferié non plus, cela va sans dire).

Le programme est très intéressant cette année et on regrette de ne pas pouvoir se dédoubler pour assister à plusieurs sessions à la fois. Heureusement, grâce au fil Twitter #wlic2011 qui est assez bien alimenté, on peut avoir une idée de ce que se passe dans les autres salles.

Ainsi le Web sémantique est à l’honneur et il a été abordé hier dans deux sessions qui se déroulaient en parallèle : la session des bibliothèques d’art, avec une présentation sur VIAF et celle de la section de Catalogage avec le projet polymath, un projet sur les autorités en Linked Data dont j’avais entendu parler parce qu’ils ont présenté un use case au LLD XG. Dans cette 2e, il semblerait que la question de l’avenir de MARC (ou son absence en l’occurrence ;-) ait été évoquée. Elle le sera encore dans d’autres sessions.

En parallèle encore, le FAIFE (Committee on Freedom of Access to Information and Freedom of Expression) organisait une session intitulée « how to fix the world », oui, rien que ça ! ou il a été question (d’après le flux Twitter) notamment des émeutes en Egypte et des libertés individuelles.

Ce matin, après avoir écouté la session plénière ou il était question de propriété intellectuelle, je me suis rendue a la réunion du Namespace task group. Ce groupe, pour l’instant plus ou moins informel, réunit plusieurs sections et groupes de l’IFLA pour coordonner la publication des standards bibliographiques sous forme de vocabulaires RDF.
Cela faisait longtemps que le groupe ne s’était pas réuni (je me demande même si ce n’était pas la première fois… On avait surtout travaillé par mail par le passé) et c’était tout à fait passionnant. Parmi les sujets abordés, nous avons évoqué le problème de la traduction des labels dans des langues autres que l’anglais, les liens entre vocabulaires, le dédoublonnage des notices…
Les activités de ce groupe seront liées à celle du groupe d’intérêt spécialisé sur le Web sémantique, le SWSIG, que je réunis mercredi matin à 9:30 (si des congressistes me lisent : surtout n’hésitez pas à y assister, même par simple curiosité !)

A suivre…

Ma valise pour l’IFLA

Bon alors… départ pour l’IFLA la semaine prochaine… qu’est-ce que je vais mettre dans ma valise ?

1, Mon article sur Convergence et interopérabilité : l’apport du Web de données pour la session de la la section Classification et Indexation. Que j’ai écrit en français, pour une fois… Faudrait peut-être que je fournisse la traduction, d’ailleurs, oups, ne serais-je pas un peu en retard ?
Tiens, en tout cas, il va y avoir des choses intéressantes dans cette session : comment skosifier votre bibliothèque, un service japonais pour le Web sémantique, et l’indexation par le Web à la Bibliothèque du Congrès.

2. Le rapport final du LLD XG, dont nous allons présenter les résultats lors de la première réunion du nouveau groupe « Web sémantique et bibliothèques » que j’anime.
Le rapport en question n’est pas tout à fait fini, on y travaille encore… Et d’ailleurs ce n’est pas tout ! Il y a deux livrables complémentaires : l’un qui liste les données et vocabulaires disponibles, l’autre qui synthétise notre collecte de use cases.

3. Le texte fondateur du groupe d’intérêt spécialisé que j’évoquais plus haut, le SW SIG. C’est qu’il va falloir réfléchir à ce qu’on va faire dans ce groupe pendant les deux ou trois ans à venir… Ce sera le but de la réunion du groupe : une réunion ouverte, à laquelle tout le monde peut venir.

4. Les documents des autres groupes auxquels je participe :
– le comité permanent de la section Information Technology,
– le Namespaces task group qui travaille sur la publication des vocabulaires de l’IFLA (dont la FRBR family),
– l’ISBD XML group qui (comme son nom ne l’indique pas) finalise en ce moment une version de l’ISBD en RDF, version qui a déjà été utilisée par la British Library dans la version Linked Data de leur bibliographie nationale, publiée récemment.

5. Le programme de toutes les intéressantes sessions de la conférence auxquelles je vais pouvoir assister : sur le dépôt légal numérique, la formation pour la gestion des collections numériques, etc.

6. Mon ordinateur portable. Mon blog. Mon Facebook. Mon Twitter, avec le hashtag #wlic2011.

7. Mon maillot de bain :-) quand même…

Appel à commentaires

En cette période estivale, l’activité dans votre bibliothèque se ralentit… Vous avez peur de vous ennuyer…

Si vous n’êtes pas encore partis en vacances, à vos stylos ! Il vous reste encore une semaine pour poster des commentaires sur le brouillon du rapport final du groupe W3C Library Linked Data, le LLD XG.

Pour faciliter les choses, nous avons posté l’intégralité du rapport sur un blog où vous pouvez très facilement ajouter des commentaires. Après quelques hoquets, il est maintenant tout à fait opérationnel.

C’est par ici.

La contribution de tous est essentielle pour que ce rapport soit utile à la communauté et trouve son public. Alors surtout, n’hésitez pas.

Bon été !

Passerelles

L’un des grands atouts de l’Ecole des chartes, c’est qu’elle forme aux métiers du patrimoine dans leur ensemble : bibliothèques, archives, musées. Attention, je ne dis pas que la formation qu’on y reçoit est suffisante pour apprendre l’un de ces trois métiers, c’est d’ailleurs pour cela qu’il y a les écoles d’application, l’ENSSIB et l’INP (qui ne sont peut-être pas vraiment suffisantes non plus, mais c’est une autre histoire). Mais on acquiert une sensibilité.

Ceux qui, comme moi, éprouvent face à cette pluridisciplinarité une curiosité boulimique, font une thèse sur l’estampe. Cela leur permet d’avoir un pied dans les trois mondes : l’histoire de l’art grâce à l’image, l’histoire du livre grâce aux techniques d’impression, et l’archivistique grâce aux sources.

On découvre alors que ces trois « patrimoines », s’ils ont des points communs, ont surtout une façon extrêmement différente d’aborder leur objet. Prenons (par exemple, et tout à fait au hasard) la notion d’œuvre.
Dans les musées (au sens large, j’inclus aussi le patrimoine architectural, etc.) l’œuvre est souvent un objet unique, caractérisé par une relation intime avec son ou ses créateur(s). Cependant, d’une certaine façon, l’intérêt que l’œuvre suscite fait voler en éclats cette unicité : il y a de multiples reproductions (je n’aime pas beaucoup ce terme, on pourrait dire plutôt représentations, mais ça ferait sûrement débat), l’œuvre a été exposée dans tel ou tel musée, dans telle ou telle exposition, elle a subi des restaurations, etc. et tout cela a pu laisser des traces. Ainsi c’est la « vie de l’œuvre » qui est intéressante, au-delà de l’œuvre elle-même.
Grâce aux FRBR, les bibliothèques se sont à leur tour approprié cette notion d’œuvre, pensant qu’elle aiderait les catalogues à être plus utiles pour les usagers. Mais en bibliothéconomie il n’existe aucun référent matériel, aucun objet physique, qui corresponde à l’œuvre. Par exemple, si on prend Hamlet de Shakespeare, l’œuvre ne se confond pas avec le manuscrit original, ni avec l’édition princeps, ni même avec la première représentation de la pièce. L’œuvre est une notion abstraite, et par là, sujet à de nombreux débats. Au final, l’œuvre c’est la somme de toutes ses manifestations, le tout étant plus que la somme des parties.
Dans les archives, il n’y a pas de notion d’œuvre. Mais à mon avis, ce qui s’en approcherait le plus serait le fonds. Le fonds tient son unité de l’entité qui l’a produit et du processus dont il est issu ; si on s’arrête à cette définition, on peut assez bien remplacer « fonds » par « œuvre ». Toutefois ce qui intéresse tant les archivistes dans la notion de fonds, c’est le contexte : l’idée qu’une pièce dans un dossier ou une série n’est compréhensible qu’en fonction des autres pièces et dossiers qui constituent le fonds.

Au final, cet exemple autour de l’œuvre montre bien que lorsque l’on s’intéresse à l’objet « patrimoine », on rencontre toujours ces problématiques du tout et des parties, mais la logique est profondément différente dans les archives, les bibliothèques, les musées.

En sortant de l’Ecole des chartes, les chemins divergents : les archivistes deviendront des maniaques du respect des fonds, les bibliothécaires seront obsédés par la description de leurs collections et la médiation, et les conservateurs de musée eh bien… Je n’en connais pas suffisamment pour généraliser, mais je peux dire que les spécimens que j’ai côtoyés sont, comme leurs œuvres, uniques en leur genre ;-)
Mais il y a des passerelles. On peut être archiviste et travailler en bibliothèque, cela s’est vu. On peut aussi être bibliothécaire et travailler dans un musée, en tout cas ça se tente ;-) Je ne connais pas d’exemple de gens qui seraient passés des musées ou des bibliothèques aux archives, mais ce n’est certainement pas impossible.
Je trouve que cette compréhension de l’objet patrimonial, et cette conscience des points communs et surtout des différences fondamentales dans l’appréhension de ces objets, est une des richesses essentielles de nos métiers, et sans doute une grande motivation pour tenter l’aventure de passer d’un monde à l’autre.
Le numérique pousse nos professions à rechercher leurs points communs et à essayer de gommer leurs différences, à la recherche d’une mystérieuse et intangible interopérabilité. Toutefois, à mon avis, ignorer les différences de perspective de ces trois métiers conduirait à de grosses erreurs du point de vue des données. Il faut au contraire prendre acte de leurs différences, bien les comprendre, pour pouvoir les interpréter correctement et les restituer dans le monde numérique d’une façon satisfaisante.
Pour le dire autrement : faut faire du Web sémantique en Linked Data, pas du Dublin Core simple en OAI ;-)

Nouveaux horizons

En ce premier avril 2011, il est temps pour moi de découvrir de nouveaux horizons. Après presque 8 années au service de la bibliothéconomie, dans ce qu’elle a de plus traditionnel et de plus innovant tout à la fois, et au sein d’une institution toujours merveilleuse même si parfois effrayante, il est temps pour moi de passer à autre chose.

Je suis impatiente d’apprendre de nouvelles choses, de rencontrer de nouvelles compétences, d’explorer ces nouveaux horizons qui s’ouvrent à moi. J’espère que toute cette nouveauté me poussera à reprendre plus souvent ma plume numérique pour venir ici noircir quelques pixels.

Il se pourrait toutefois que vous voyiez ce blog s’infléchir légèrement vers des préoccupations parfois plus muséologiques (entre autres) que bibliothéconomiques… Enfin si j’ai le temps de bloguer, car le projet qui m’attend va requérir toute mon attention et mon énergie.
Enfin, si je m’éloigne des bibliothèques, ce n’est que pour mieux revenir vers le numérique. D’ailleurs, elles ne seront pas loin, au moins pour deux d’entre elles ;-) Et le Web sémantique restera, pour longtemps je pense, un de mes sujets de préoccupation préférés.

Pour accompagner ce changement, j’ai aussi décidé d’arrêter définitivement la confiture de figues. C’est vrai, au bout d’un moment, on finit par se lasser de manger tout le temps la même confiture. Je vais donc rebaptiser ce blog « Fraisoblog : un blog sur la muséologie, le Web sémantique et la confiture de fraise ». Ça le fait, non ?

PS : un poisson s’est glissé dans ce billet, saurez-vous le retrouver ?

Un réservoir de données liées…

En farfouillant dans les archives du Figoblog pour produire un document, je retombe sur cet article d’avril 2006 dans lequel je suggérais :

Moi je verrais bien l’évolution du catalogue vers un statut de base « pivot », contenant des données en XML qu’on pourrait réutiliser à volonté, dans des applications adaptées aux différents types d’usagers.

5 ans après, je ne sais pas si je suis complètement monomaniaque ou franchement visionnaire, mais j’ai toujours la même vision. A quelques détails près.

Je pensais XML, parce que je n’avais pas encore réalisé qu’il n’était pas vraisemblable de vouloir faire entrer toutes les données du catalogue, dans leur diversité, dans un même modèle documentaire.
Il a fallu s’extraire des carcans de la pensée documentaire pour considérer que ce dont nous avons besoin, ce n’est pas un format unique, mais un modèle générique capable d’intégrer de façon souple et auto-descriptive différents formats.

J’avais aussi pressenti que le problème n’était pas d’imaginer les nouveaux usages, mais d’imaginer un réservoir de données capable de s’adapter à tous les usages possibles :

Il y a des usages, multiples, différents, et aucun outil miracle ne saura tous les contenter. Il faut des données fiables et souples, qu’on peut sortir, transformer, adapter, réutiliser. Pour moi c’est ça le futur du catalogue.

En fait, j’envisageais déjà le catalogue comme un système métastable, c’est à dire capable d’intégrer les évolutions de façon naturelle, et pas uniquement comme des facteurs de remise en cause et d’instabilité.

En fait, il fallait pousser le raisonnement jusqu’au bout : ce qui m’inspirait ces réflexions c’était le modèle du Web. Or, le Web, en tant qu’espace global d’information (un espace où on peut naviguer d’une page à l’autre sans rupture, ni technologique, ni dans l’expérience utilisateur : il suffit de « cliquer »), nous apprend précisément ceci : si on veut que de larges quantités d’informations puissent interopérer, il faut accepter qu’elles soient produites de façon hétérogène, et n’imposer que le niveau minimal de normalisation permettant à toutes ces informations de cohabiter dans le même espace.

Les systèmes d’information actuels (dont les catalogues) posent exactement ce type de problème : ils sont instables au sens où leur équilibre est sans arrêt remis en cause par quelque chose de nouveau (un nouveau format, un nouveau besoin, une nouvelle fonctionnalité), et ils sont hétérogènes parce qu’à chaque nouveau besoin, on donne une réponse spécifique.

Le Linking Enterprise Data correspond à l’application des principes du Linked Data au domaine de l’entreprise. Je ne vous parle même pas d’exposer les données sur le Web. L’enjeu est seulement d’utiliser le Web (ou le Web sémantique) comme modèle pour la conception du système d’information. On adopte un niveau de normalisation minimal pour toutes les applications, de façon à ce que les données soient interopérables et reliées (avec des URI). A partir de là, le système devient métastable, capable de maintenir une certaine stabilité dans un contexte en évolution. Quand un nouvel usage émerge, la donnée est déjà disponible, il suffit de l’agréger pour la retraiter.

La masse des données manipulée dans les catalogues (surtout les gros) rend illusoire l’adoption d’une base unique, d’un format unique. Techniquement, les problèmes de performance et de cohérence sont exponentiels. Du point de vue de l’utilisateur, le modèle est rigide, inadapté aux évolutions.
Il faut adopter un modèle qui est prévu, de façon inhérente, pour être permissif aux évolutions. RDF par exemple.
Dès lors le catalogue, plutôt qu’un réservoir unique, est une plate-forme, un environnement cohérent au niveau local (à l’intérieur de la bibliothèque) dont le rôle majeur est de relier les données et de les rendre disponibles.

Merci à Got d’avoir partagé ses lumières avec moi sur ce sujet.

Et au fait, le LLD XG ?

Il y a quelques mois, j’annonçais ici la naissance d’un groupe au W3C sur les bibliothèques et le Web de données. Depuis, silence radio… et pour cause ! C’est un peu prenant, comme activité. D’ailleurs, ceux d’entre vous qui auraient essayé de suivre via la liste de discussion se seront rendu compte qu’il s’y passe tellement de choses que c’est parfois difficile de suivre. Même pour les membres du groupe, et même pour les co-chairs, alors ;-)

Du coup je me suis dit qu’un petit point d’étape à mi-parcours, et en français dans le texte, ne serait pas inutile. Oui à mi-parcours, on a déjà passé la moitié de l’espérance de vie normale de ce groupe…

Depuis le mois de mai, le groupe se réunit chaque semaine pendant une heure au téléphone. Vous me direz, comment on fait pour tenir une réunion d’une heure, avec en général entre 10 et 20 personnes en ligne, par téléphone et dans une langue étrangère pour la la plupart des membres du groupe ? Et ben, on y arrive grâce à l’infrastructure géniale du W3C (et un peu d’organisation).
Sur le wiki vous trouverez le running agenda, qui contient toutes les actions en cours et les sujets de travail actifs. Chaque semaine, celui qui préside la réunion le met à jour et envoie un sous-ensemble, les points qui seront traités, sur la mailing list.
Pendant la réunion, on est au téléphone et en même temps sur un canal IRC qui permet aux robots du W3C (Zakim et ses amis) de nous rejoindre et de gérer les aspects « logistiques » de la réunion : passer à la parole à ceux qui la demandent, couper les micros qui font trop de bruit, et prendre des notes. Enfin, c’est le scribe (une fonction tournante) qui écrit directement dans le canal IRC tout ce qui se passe : comme ça les minutes sont prêtes, ou presque, dès que la réunion est finie.

Je ne vous recommande pas la lecture des minutes de réunion, qui sont un peu dures à comprendre quand on n’a pas participé, mais il existe une page où sont récapitulés tous les sujets qui ont été traités pendant les réunions, ce qui permet de voir un peu l’avancement du groupe.

En octobre, nous nous sommes rencontrés à Pittsburgh pour le « face to face », seule et unique réunion présentielle dans la vie du groupe. Cette réunion a duré 1 jour et demi, et était elle aussi assistée par Zakim, avec des minutes extensives.
Mais bon, pour que cela soit compréhensible pour le reste du monde, nous avons produit un résumé des résultats de cette réunion.
Principalement, ce que nous avons fait c’est que nous avons regroupé les 42 (et plus) « use cases » que nous avions reçu en plusieurs « paquets » thématiques, les use case clusters, sur lesquels nous travaillons actuellement (voir ci-dessous).
Nous avons aussi travaillé sur la liste des sujets intéressants (« topics ») que nous avions identifié en lançant le groupe, pour essayer d’évaluer ce qui serait faisable dans le groupe d’incubation lui-même, et ce qui devrait faire l’objet de recommandations pour des actions ultérieures.

Depuis, nous bossons dur sur les use case clusters. L’objectif est, en partant de cas réels identifiés dans les use cases, d’essayer de couvrir plus ou moins tout le spectre des problématiques du Web de données en bibliothèque… pas une mince affaire !

Le cluster Bibliographic Data s’intéresse au cœur de cible des données de bibliothèques : la notice bibliographique. Il aborde des sujets tels que l’évolution des modèles et des formats, les problématiques de duplication et d’échanges de notices, et bien sûr, une discussion qui fait rage sur la liste en ce moment : dans un contexte de Web de données, peut-on encore parler de « notice » ?

Le cluster Authority data (la page est encore vide, mais ça va venir ;-), qui porte sur les données d’autorité, touche des problématiques assez différentes. Il fait l’objet d’une discussion pour savoir si quand on parle d’autorités, il est question des « choses » elles-mêmes ou juste des « noms » des choses. En fait, une discussion intensive autour de VIAF sur la liste a conduit à une sorte de consensus sur un modèle qui, à partir d’une notice d’autorité (par ex. une personne), produit un ensemble d’assertions reliées entre elles, dont certaines portent sur la personne en tant qu’entité, et d’autres sur son « label » (sa forme, on dirait en français) et les caractéristiques de cette forme.

Le cluster Vocabulary alignment porte sur l’utilisation de vocabulaires reliés entre eux pour améliorer l’interopérabilité entre des données qui sont décrites suivant des standards différents.
En fait, il s’avère que ce terme de « vocabulaire » était sujet à ambiguïté, ce qui a conduit, là encore, à tout un tas de discussions sur la liste, et débouché sur cette définition, dont nous ne prétendons pas qu’elle est globalement parfaite, mais plutôt qu’elle est suffisamment claire pour servir les besoins de notre groupe, à savoir, produire un rapport à peu près compréhensible pour des bibliothécaires ;-)
Au-delà de ça, il s’agit d’identifier la façon dont l’utilisation des technologies du Web sémantique pour aligner des vocabulaires va permettre d’améliorer l’expérience de l’utilisateur en terme de recherche et de navigation (search and browse). Bien sûr, cela ouvre aussi des perspectives pour améliorer ces vocabulaires eux-mêmes.

Le cluster Archives and heterogeneous data est un ensemble de cas qui touchent à la convergence entre des données au-delà des bibliothèques (archives, musées, etc.) en particulier dans des contextes où on essaye d’agréger ou de fédérer des grosses quantités de données.
C’est celui sur lequel j’ai travaillé donc je ne suis peut-être pas tout à fait objective… Mais à mon avis, son intérêt principal est de faire émerger le besoin, pour ce type de données, d’utiliser ce que les archives appellent le contexte (ou les bibliothèques, les autorités), bref un réseau d’informations sémantiques, pour relier des données qui sont différentes, qui décrivent des ressources différentes, mais qu’on voudrait pouvoir connecter quand même pour offrir une dimension de navigation à l’utilisateur.
Dans ce cluster, on touche aussi à l’intérêt du Linked Data pour des données non bibliographiques et à des fins professionnelles (l’utilisateur est le bibliothécaire ou l’archiviste).

Le cluster Citations travaille sur la notion de référence bibliographique. Après avoir posé une définition à plusieurs niveaux, il s’est attaché à imaginer ce que le Linked Data pourrait apporter comme enrichissements à la notion de citation telle que nous la connaissons actuellement : notamment en permettant l’accès direct à la ressource citée, ou en ajoutant des liens typés permettant d’être plus précis sur la relation entre le document citant et le document cité. La problématique des formats de citation est à rapprocher de celle des données bibliographiques.

Le cluster Digital Objects fait le tour des besoins liés à la publication d’objets numériques en ligne, l’accent étant mis sur la nécessité de pouvoir regrouper des objets, les enrichir, les parcourir et les réutiliser. Derrière la notion de regroupement on retrouve celle de structuration des objets complexes, avec notamment la mention d’OAI-ORE.

Ces 6 clusters étaient ceux qui avaient émergé de la réunion « face to face », mais par la suite nous avons été amenés à en créer deux autres : Collections qui traite des collections de bibliothèques et aussi de la problématique de la localisation des objets physiques, et Social Uses qui vient juste de lancer un appel à contributions.

Voilà, nous en sommes là ! Le travail sur les clusters est en train de se terminer, et je suppose qu’ensuite, nous commencerons à l’intégrer dans l’embryon de ce qui sera notre rapport final.

Sem Web Pro

Ces deux derniers jours, j’ai participé à la conférence Semweb.Pro. L’objectif de cette première édition était, je crois, de montrer qu’il existe une communauté professionnelle et des applications industrielles pour le Web sémantique en France. Et l’objectif a, je crois, été atteint !

Environ 130 personnes étaient présentes entre les deux journées : la conférence proprement dite le 1er jour, et les tutoriels le 2e jour. Quelques impressions à chaud…

J’ai beaucoup apprécié l’ouverture d’Ivan Herman, qui a fait le point sur les travaux en cours dans le domaine du Web sémantique au W3C, de la nouvelle version de SPARQL aux travaux qui vont démarrer sur « RDF next steps », en passant par les évolutions de RDFa. Bon c’est vrai, dès le matin à 9h, les requêtes SPARQL direct c’était un peu sévère ;-) mais au moins ça annonçait la couleur.

Ensuite, nous avons assisté à 4 présentations de produits qui permettent de publier des données en RDF : EMFtriple, CubicWeb, Semsoft et Asterid. Personnellement, cette partie de la conférence m’a moins emballée, mais je pense que c’est juste parce que ça ne correspondait pas à mes centres d’intérêt à ce moment-là.

L’après-midi la parole était aux producteurs, avec une table ronde sur l’ouverture des données publiques (à laquelle j’ai participé), et la présentation de la BBC (j’adore toujours autant leurs réalisations, c’est vraiment excellent).
Enfin quelques réalisations intéressantes : SemWebVid pour annoter des vidéos automatiquement, les explications d’Antidot sur l’utilisation des technos du Web sémantique dans un moteur de recherche, et Datao pour les interfaces graphiques.
Ça s’est terminé avec des « lightning talks » auxquels je n’ai malheureusement pas pu assister.

Deuxième jour, les tutoriels : c’était dur, il fallait choisir ;-) mais je dois dire que tous ceux auxquels j’ai assisté étaient de grande qualité. Grâce à Got je n’ai plus peur de RDFa… et je salue tout particulièrement le travail de l’équipe Datalift, je pense que leurs diapos feront date dans le monde du Web de données français.

Pour finir, je tire mon chapeau aux organisateurs de la conférence pour la logistique, les salles, le café, les croissants, le wifi, le fil twitter, le déjeuner au self du coin, tout ! Et ce qui était surtout agréable c’était de voir réunie toute la communauté et de partager ces deux jours avec tout plein de gens passionnants. J’espère qu’on remettra ça l’année prochaine !