IFLA 2010 – Au jour le jour (2)

Mercredi, après avoir dansé sur ABBA à la session d’ouverture (mais je souhaiterais aussi saluer la performance des deux autres artistes, un guitariste et une chanteuse, qui étaient vraiment époustouflants) nous avons dégusté un déjeuner à base de pommes de terres et de saumon fumé, offert par la présidente. Les sessions de conférence ont ensuite démarré, mais seulement jusqu’à 16h, où nous attendait un nouvel événement : l’ouverture de l’exposition et des stands.

Une nouvelle occasion de boire un verre, et de retrouver (entre autre) les collègues de l’ABES, que j’en profite pour saluer ici. J’ai fait une belle collection de reproches quant à mon manque d’assiduité sur Figoblog, alors, saisie de remords, je me suis dépêchée de m’enregistrer parmi les blogueurs officiels de l’IFLA, ce qui m’a permis d’obtenir un joli ruban bleu pour décorer mon badge.

J’ai également profité d’un peu de temps libre pour visiter la Bibliothèque publique de la ville. C’est un endroit extrêmement agréable, avec plein de fauteuils ikéa et de places confortables pour travailler, une offre de livres dans de nombreuses langues, et des animations variées. On profitait aussi des échos du festival qui a une scène juste en bas sur Götaplatsen.

Le lendemain, deuxième jour de la Conférence, j’ai assisté à la présentation par OCLC de leur nouveau service « Webscale Management System », un service de gestion de bibliothèque « dans les nuages ». Très intéressant, mais c’est encore un travail en cours, qui n’existe que sous forme de pilote aux Etats-Unis pour l’instant.

Juste après cela, le petit sous-groupe de travail sur le Web sémantique que j’anime au sein de la section IT s’est réuni pour discuter de ses actions pour les années à venir. Ces actions incluent la proposition de créer une structure légère, de type groupe d’intérêt spécialisé (SIG), sur cette question au sein de l’IFLA, question qu’il faut maintenant poser aux autres sections intéressées : Cataloguing, Classification and Indexing, et Knowledge Management. Nous avons aussi beaucoup discuté de la convergence des travaux au sein de l’IFLA avec ceux du LLD XG au W3C.

L’après-midi, je me suis immergée dans les questions de catalogage, avec la session de la conférence organisée par la section Catalogage, et la deuxième réunion du groupe ISBD/XML.
A la session, nous avons entendu parler entre autres de FRBRoo et d’identifiants, et de VIAF (de façon impromptue). Mes notes sont sur Twitter ;-)
Dans le groupe ISBD/XML, nous sommes entrés dans d’intéressantes questions de modélisation, incluant en particulier la difficile question de la représentation des « aggregated statements », et celle des référentiels. A nouveau, des discussions seront à lancer avec le LLD XG et elles promettent d’être intéressantes.

La soirée s’est terminée, en ce qui me concerne, à la réception OCLC, l’un des événements mondains les plus courus de l’IFLA. Il faut dire qu’on y mange très bien, qu’on y boit à volonté, que cela se passe généralement dans un lieu exceptionnel (en l’occurrence, le musée des beaux-arts de Göteborg), et que les gens d’OCLC sont toujours aimables, souriants, accueillants… Bref, un plaisir.

IFLA 2010 – c’est parti !

C’est ce matin que s’ouvre officiellement le 76e congrès international des bibliothèques, connu sous le petit nom de WLIC ou congrès de l’IFLA.

Nous sommes à Göteborg en Suède, et pour certains, l’IFLA a déjà commencé : il y a ceux qui font partie des entités officielles de l’IFLA (le Governing Board, les Divisions, et le comité professionnel) qui ont commencé leurs réunions lundi, ceux qui ont profité de l’IFLA pour organiser des réunions internationales sur autre chose, et ceux qui étaient à Stockholm ou dans les îles…

Je fais partie de la deuxième catégorie, puisque j’ai eu la chance d’assister lundi à une réunion sur VIAF, le projet de fichier d’autorité international virtuel. Il a été questions entre autres sujets de l’exposition des données de VIAF dans le linked data, et de l’avenir du projet.

Hier avaient lieu les réunions des « standing committee », les comités permanents des sections. Ils rassemblent les membres de chaque section (qui sont élus pour 3 ans) sous l’égide du président de section (« chair ») et du secrétaire. Les réunions des comités sont aussi ouvertes aux observateurs.
Pour ma part, je suis membre de la section « Information Technology » depuis l’année dernière, au sein de laquelle j’anime un petit sous-groupe qui s’intéresse aux questions de Web sémantique et Web de données. Un sujet qui reste à l’honneur cette année (à suivre) et pour les années à venir (à suivre encore plus).

Le soir se sont tenues les réunions par pays ou langues, dites « caucus » : évidemment j’ai assisté au caucus des francophones, une bonne occasion de retrouver les collègues français mais aussi canadiens, africains, etc.

Pour certains, le travail a commencé sur les chapeaux de roue : ainsi le groupe ISBD/XML qui se réunissait à 8h (oui, 8h !) ce matin. L’avenir appartient en effet à ceux qui se lèvent tôt, car ce groupe a également choisi comme principale orientation la recherche de la convergence avec les technologies du Web sémantique. Ils avaient décidé l’an dernier de « sauter » l’étape XML et de travailler sur l’expression de l’ISBD en RDF. Ces travaux se poursuivent actuellement.

La session d’ouverture du congrès, qui commence à l’heure où j’écris, est un moment très formel et officiel où nous sommes accueillis par le pays qui organise le congrès et la présidente de l’IFLA. Il ne faut pas oublier que le congrès de l’IFLA, c’est plus de 3000 personnes qui convergent vers la ville d’accueil : c’est énorme pour une petite ville comme Göteborg, qui (pour notre plaisir) organise aussi justement cette semaine un festival culturel. Cela fait aussi beaucoup de bibliothécaires dans les rues ;-)

Vous pouvez suivre l’actualité du congrès en temps réel sur Twitter, avec le tag #IFLA2010, et sur le site « interactif » (une nouveauté de l’IFLA cette année) http://2010.ifla.org.

Vacances d’été en RDA

Ah ah, ils sont impayables nos amis du JSC (Joint steering Committee – sous entendu : for the development of RDA).

Souvenez-vous : la dernière fois qu’il a fallu relire les RDA (resource description and access), ce nouveau code de catalogage, c’était presque Noël.

Maintenant qu’il paraît en version définitive, c’est juste avant les deux mois d’été. Et devinez jusqu’à quand vous avez accès gratuitement au RDA toolkit, ce site web qui deviendra le livre (enfin, le site Web) de chevet des bibliothécaires de demain ?

Jusqu’au 31 août.
Alors, pas de risque que les bibliothécaires s’ennuient pendant les vacances.
Et vive l’amitié France RDA !

Un groupe « Bibliothèques et Web de données » au sein du W3C

Le W3C vient d’annoncer le lancement d’un groupe d’incubation « Bibliothèques et Web de données » (Library linked data).
Pour moi, c’est l’aboutissement de plusieurs mois de réflexions, prises de contact, argumentation, maturation, explications, bref pas mal de travail pour aboutir à ce résultat, même si ce n’est qu’un début ! Je suis donc extrêmement heureuse de pouvoir vous en dire plus sur cette initiative.

Pourquoi le W3C ?
Le W3C est le principal organisme de normalisation du Web.
Traditionnellement, les bibliothèques font un important travail de normalisation, soit au sein d’organismes propres à leur communauté (IFLA) soit au sein d’organismes de normalisation traditionnels (ISO, AFNOR). La normalisation est d’ailleurs perçue comme un réel atout de notre communauté.
Aujourd’hui, la tendance est à la recherche de convergence, c’est-à-dire à ne plus faire des normes spécifiques à une communauté, mais des normes valables dans un environnement plus global. S’agissant de technologies de l’information, cet environnement global s’appelle le Web. Il est donc vital que les bibliothèques, aujourd’hui presque totalement absentes de la normalisation au W3C, se mobilisent et se coordonnent pour y participer.
La participation à tous les groupes de normalisation qui travaillent sur des standards potentiellement applicables en bibliothèque est inenvisageable. Ces groupes sont trop nombreux, leur propos est souvent très technique et requerrait de mobiliser fortement les informaticiens des bibliothèques, ce qui est impossible.
L’autre solution était donc de créer une structure, au sein du W3C, correspondant au domaine des bibliothèques, qui leur permettrait de s’exprimer en tant que communauté sur leurs besoins et leurs usages des normes du W3C. C’est le rôle de ce groupe.

Pourquoi un « groupe d’incubation » ?
Un « incubator group » (qui s’abrège en « XG ») a vocation à faire des propositions au W3C sur de nouveaux travaux à démarrer. C’est donc le préalable à toute action plus durable qui pourrait être entreprise au sein du W3C.
Autre avantage, c’est une structure légère à créer : il suffit que 3 organisations membres le soutiennent pour le lancer.
Le Library Linked Data XG va donc travailler pendant un an (jusqu’à fin mai 2011) pour élaborer un rapport dans lequel on trouvera des préconisations pour d’autres actions à conduire sur le plus long terme.

Pourquoi les bibliothèques ?
Du côté des bibliothèques c’était vraiment le bon moment : les formats de demain (RDA notamment) et les projets internationaux majeurs (VIAF par exemple) s’appuient fortement sur les technologies du Web sémantique. Ces actions sont encore expérimentales, jeunes, il est donc temps de les utiliser comme un tremplin pour préparer l’environnement normatif de demain.
Le W3C a été sensible à cette tendance de convergence recherchée par les bibliothèques, et l’intérêt d’un tel groupe n’a fait aucun doute de leur côté.
Cela ne veut pas dire que les autres acteurs « proches », c’est-à-dire principalement du monde patrimonial (archives, musées, etc.) ou de l’édition (éditeurs, libraires…) sont exclus de notre réflexion, bien au contraire. Simplement il fallait se fixer un objectif raisonnable et atteignable, d’où le choix des bibliothèques comme point de départ. Le rapport du groupe devra contenir des recommandations sur les modalités de rapprochement avec ces autres communautés.

Pourquoi le Web de données (Linked Data) ?
Nous avons hésité à focaliser le groupe sur le Web sémantique, mais nous avons finalement préféré le Web de données pour deux raisons.
Déjà, le Web sémantique est un terme dont l’ambiguïté pose problème, même dans les communautés supposées connaître ces technologies. C’est un fait qui est même reconnu au sein du W3C.
Mais surtout, le choix de faire référence au Web de données implique que la problématique du groupe sera l’interopérabilité globale des données de bibliothèques sur le Web, et pas seulement le Web sémantique. Le Web de données inclut la réflexion sur des standards du Web qui ne font pas uniquement partie de la sphère du Web sémantique (comme HTTP ou les URI).
Tout ceci est expliqué dans la charte du groupe.

Qui fera partie de ce groupe ?
Ce groupe a été initié par des acteurs majeurs du monde des bibliothèques, comme la Library of Congress, OCLC, et Talis, et du domaine du Web sémantique comme le DERI, l’Université libre d’Amsterdam, l’Université Aalto à Helsinki, etc.
Tous ces acteurs, ainsi que tous les membres du W3C, peuvent de droit nommer des représentants dans le groupe. De plus, les présidents du groupe peuvent faire appel à des experts invités, même si ceux-ci n’appartiennent pas à une organisation membre du W3C. Le W3C devrait publier bientôt un appel à contributions pour enclencher ce processus de nominations.
Le groupe a trois co-présidents, Tom Baker, Antoine Isaac et moi-même. Nous espérons être rejoints par une vingtaine de participants actifs (qui assisteront aux téléconférences hebdomadaires et rédigeront les documents). Mais la communauté qui va se créer autour du groupe sera beaucoup plus importante : tout le monde pourra suivre la progression de ses travaux, via le wiki et la liste de diffusion publique.

Et maintenant ?
Et maintenant, au travail. Nous avons un an pour faire un bilan de l’état des technologies du Web de données appliquées dans le domaine des bibliothèques, identifier des acquis et des pistes de travail, mettre les acteurs en présence, construire une vision qui fasse l’objet d’un consensus. Je crois que cette année va passer très vite. Si mon blog reste un peu trop silencieux, rendez-vous sur le site du W3C…

Le 2e catalogue dans le Linked Data

Il y a un peu plus d’un an, je vous parlais de Libris, le premier catalogue de bibliothèque à être exposé intégralement dans le Linked data.

Aujourd’hui, il est rejoint par le catalogue de la Bibliothèque nationale hongroise (National Széchényi Library), d’après ce message sur la liste LoD.
Alors vu que ce n’est pas 100% intuitif, voici le « truc » pour voir le RDF : il faut ajouter « data » dans l’URL avant l’identifiant de la ressource (« data »… c’est bien trouvé ça, non ;-)
Dans le RDF on peut voir qu’ils utilisent DC pour les données bibliographiques, FOAF pour les personnes, et SKOS pour les sujets. En outre, certaines de leurs autorités personnes sont alignées avec DBpedia.

La 3e, ça me semble être bien parti pour être la bibliothèque nationale allemande (DNB), si on en croit ce document.. Mais on va attendre sagement qu’ils aient fini de travailler dessus avant d’en dire plus !

A partir de 4, on ne décerne plus de médaille, il fallait se réveiller avant. Non pas qu’on dort, hein, c’est juste que ça prend du temps ;-)
Ceux qui veulent en savoir plus sur pourquoi et comment on met les catalogues de bibliothèque dans le Web de données peuvent regarder la vidéo d’1h30 de mon 5 à 7 de l’ADBS sur ce sujet.

Le problème avec le catalogue…

Je relisais ce matin le billet de B. Calenge « Pourquoi les catalogues ne peuvent pas être 2.0 » et je me disais que la vision qu’il donne du catalogue est tout à fait dans l’air du temps, c’est-à-dire, dans un mouvement de désaffection à l’égard de l’outil qui a incarné depuis tant d’années (depuis toujours ?) le cœur du métier de bibliothécaire.

En fait, le problème avec le catalogue, c’est justement sa nature multiforme et la difficulté de définir précisément à quoi il sert. Les bibliothécaires ont longtemps projeté leur propre vision du catalogue sur les usagers, et c’est ce qu’ils font encore quand ils essayent de construire le « catalogue 2.0 ». Mais en même temps, le catalogue est leur outil de travail, un outil de « gestion », principalement dédié à la « localisation » des ouvrages d’une bibliothèque donnée, un outil « local ».

Quand B. C. parle de « laisser disséminer les données bibliographiques » il se place dans une toute autre vision ; il n’est plus question « du catalogue » mais « des données ». C’est autre choses, on sort de cette vision centrée autour d’un outil.

Éviter la redondance (donc que plein de catalogueurs ressaisissent plein de fois la même information), permettre de lier les données du catalogue, permettre de les réutiliser, ce sont là les principaux défis du catalogue aujourd’hui.
Un pléthore de rapports ont été publiés récemment sur ce sujet ou des sujets connexes :
réflexions du NISO sur la chaîne de production des métadonnées du livre
réflexions de la Library of Congress sur le « marché » des notices MARC
– réflexion d’OCLC sur l’utilisation des champs MARC, dans une perspective de rationalisation du catalogage pour atteindre différents objectifs, dont l’utilisation par des machines
– etc.

Ce qui tend à en faire non plus un outil destiné à des humains, mais un ensemble de données réutilisables par des machines…

… donc nous pousse vers le Web sémantique. Dans ce billet, Karen Coyle explique bien quelles sont les limites des formats MARC quand on essaye de rendre les données des catalogues plus utilisables dans le Web. Il paraît clair qu’il faudra aller au-delà des formats MARC pour y arriver, et vers le Web sémantique… mais comment s’en sortir avec toutes ces données existantes en MARC qui sont dans nos catalogues ? qui pourra piloter cet énorme changement ? Plus grave, les acteurs majeurs ont-ils vraiment intérêt à y aller, ou freinent-ils des 4 fers ?

J’y vois une autre difficulté : cette évolution ne fera qu’amplifier la tendance à la désaffection des bibliothécaires pour ces sujets, de la formation initiale (apprendre à cataloguer, c’est vraiment trop has been) aux enjeux stratégiques et budgétaires des bibliothèques (investir dans le catalogue, c’est vraiment trop has been).
Qu’on ne se méprenne pas, je trouve cela normal, et même justifié, que la plupart des collègues se recentrent sur les questions de publics, de médiation, etc. plutôt que sur les questions rébarbatives de métadonnées.
Mais ces métadonnées, on en aura besoin. Elle constituent la colonne vertébrale de tout le reste. Pas de bibliothèques numériques, de blogs, de machins 2.0 sans une solide base de métadonnées sur laquelle construire tout cela.
Les bibliothécaires qui constitueront ce réservoir de métadonnées seront moins nombreux mais plus experts ; leurs compétences seront d’autant plus précieuses, car c’est un sujet complexe, beaucoup plus complexe que ce qu’on pourrait imaginer.
Il ne faut pas abandonner les métadonnées.

Les RDA en RDF

Dans le dernier Dlib, on peut lire un article très intéressant de Karen Coyle, Diane Hillmann, Jon Phipps et Gordon Dunsire sur l’expression de RDA en RDF. Il rend compte d’un travail effectué dans le cadre du groupe de travail DCMI/RDA qui comme son nom l’indique travaille sur le rapprochement entre Dublin Core et RDA.

Pour mémoire, les RDA (Resource Description and Access) sont un ensemble de nouvelles règles de catalogage en cours d’élaboration dans la communauté anglo-saxonne, dont le principal caractère novateur est de prendre acte de la modélisation définie par les FRBR.

En fait ce qu’ils présentent dans l’article c’est un premier travail pour exprimer les RDA sous la forme d’une ontologie en RDF, qui est disponible en ligne dans le répertoire de métadonnées de la NSDL.

L’article rappelle qu’il s’agit d’un premier travail, qui arrive en avance de phase par rapport à la version définitive de RDA (prévue en juin). Pourtant, ils ont apparemment couvert sinon tout, du moins une grande partie des concepts et des éléments de description prévus.
Ce qui leur a posé plusieurs problèmes…

Le premier étant l’alignement avec les FRBR. Ils ont redéclaré des principales classes des FRBRer en attendant qu’une ontologie digne de ce nom soit publiée par l’IFLA. Mais les FRBRer n’étant pas tout à fait prévus pour cela, ils ont rencontré différents problèmes :
– ils ont dû utiliser une classe des FRBRoo, la classe Agent, sans quoi ça ne tenait pas la route (!)
– pour pas mal d’éléments RDA, le rattachement aux entités FRBR peut être discuté et on ne peut pas rattacher de façon univoque une propriété des RDA à une seule entité FRBR. Pour pallier ce problème ils ont déclaré les propriétés concernées deux fois, une fois de façon générique, puis une deuxième fois sous la forme d’une sous-propriété rattachée à l’entité FRBR choisie.

Le passage en RDF a l’avantage de mettre un certain nombre de relations en évidence de façon explicite.
Mais il implique aussi des contraintes : notamment le fait de mettre les propriétés sur un seul niveau (et pas imbriqué comme en MARC ou en XML).
Le traitement de certains trucs très spécifiques aux pratiques des bibliothèques, comme les mentions déclaratives (la mention d’édition par exemple, sous la forme « Éditeur : lieu, date ») est d’une complexité abominable dès lors qu’on veut les décomposer en plusieurs sous-parties dont certaines peuvent être des ressources (identifiées par des URI, pour les lieux par exemple) et pas seulement des littéraux (des chaînes de caractères).

L’article contient aussi un argumentaire assez intéressant sur l’utilisation d’un « metadata registry » pour déclarer les entités de RDA.
Le répertoire de métadonnées de la NSDL leur permet ainsi de diffuser à la fois une version lisible pour les humains (en HTML, sous forme de tableaux) et une version pour les machines (en RDF avec des URI). Il permet aussi de gérer le versionning et des mécanismes d’alertes.

L’article conclut enfin en soulignant les principaux avantages de cette démarche visant à modéliser les données des catalogues de bibliothèque pour le Web sémantique : il s’agit de permettre à d’autres acteurs d’appréhender ces donnés de façon plus simple qu’avec les formats MARC (cf. les propos de Google à l’ALA forum) mais aussi de nous aider à tirer le bénéfice de données créées par d’autres, comme DBPedia. Il se termine enfin avec une ouverture aux autres communautés proches des bibliothèques : institutions patrimoniales, éditeurs, etc.

Voilà pour l’article. Du côté du modèle lui-même, on va donc trouver trois choses :
– les classes correspondant aux entités FRBRer (+FRBRoo:Agent)
– les propriétés correspondants aux éléments des RDA
– les concepts conrrespondant aux listes de vocabulaires, à utiliser avec les propriétés.

Après une première et très courte analyse, ce RDA en RDF me semble une initiative assez prometteuse avec laquelle on va pouvoir commencer à s’amuser un peu… Même s’il y a sans doute encore des évolutions à prévoir.
Par exemple, on peut s’étonner de certains choix de modélisation comme le fait d’utiliser systématiquement SKOS:concept pour les vocabulaires. Autre truc bizarre, les vocabulaires sont faits pour être utilisés avec les propriétés mais l’ontologie ne le précise pas formellement ; il faut donc se débrouiller tout seul pour comprendre, par exemple, que la liste de concepts « RDA carrier type » doit être utilisée avec la propriété RDA:carrierType (là ça peut paraître évident, mais ce n’est pas toujours aussi simple malheureusement).

Bref, l’ensemble donne parfois l’impression d’avoir été conçu davantage comme un modèle de données traditionnel que comme une ontologie pour le Web sémantique, et qu’il n’en utilise pas toute l’ingénierie, ou pas correctement.
J’espère que les gens qui en savent plus que moi sur la modélisation d’ontologie n’hésiteront pas à s’exprimer sur le sujet ;-)

VMF : et que les mappings soient

Le 9 novembre dernier, il y a presque une éternité, j’étais à Londres pour assister à la présentation des résultats du projet VMF : Vocabulary Mapping Framework.
Ils ont attendu presque aussi longtemps que moi pour mettre leurs résultats en ligne, ce qui me donne l’occasion de revenir un peu sur ce projet et ce qui en a résulté dans la première phase, qui vient donc de se terminer.

D’abord, rappelons les objectifs du projet : annoncé en juin 2009, le projet VMF se donnait pour objectif de réaliser un mapping de tous les formats de métadonnées majeurs, au moyen d’une ontologie en OWL.
Vous vous souvenez peut-être que ce projet m’avait à l’époque laissée un peu songeuse
Oui, c’est vrai, cela me semblait un objectif ambitieux (trop) et je ne voyais pas très bien où ils voulaient en venir, surtout en si peu de temps. Mais maintenant les choses me semblent plus claires et je pense arriver à comprendre ce que ce projet peut apporter. Ce n’est pas un mapping universel de tous les formats de métadonnées, mais plutôt un outil d’aide à la conception de mappings entre des formats de métadonnées deux à deux.

Dans les grandes lignes, le principe est le suivant :
– imaginons qu’on veuille faire correspondre les formats W, X, Y et Z (soit, les mappings W–X, W–Y, W–Z, X–Y, X–Z et Y–Z)
– on crée une ontologie générique, qui s’appelle la Matrice (the Matrix, fallait l’inventer ;-)
– on crée ensuite le mapping de chaque format vers la Matrice (W–Matrice, X–Matrice, Y–Matrice, Z–Matrice)
– on requête la Matrice pour qu’elle propose des équivalences entre deux formats (W–Matrice–X, W–Matrice–Y, etc.)
– on a ainsi obtenu les correspondances entre les formats souhaités en faisant 4 mappings au lieu de 6.
Ceux qui savent très bien compter auront compris que l’opération n’a d’intérêt qu’à partir du moment où on cherche à faire se correspondre plus de 3 formats, mais plus on a de formats, plus le bénéfice est important : dans l’environnement actuel, cela devrait donc être facile de rentabiliser l’opération ;-)

Pour ce faire, VMF s’appuie sur le modèle INDECS pour créer une ontologie qui est suffisamment complexe pour exprimer toutes les notions ou concepts existant dans les différents formats de métadonnées. C’est cette ontologie, exprimée en RDF, qui constitue la Matrice. Vous pouvez la télécharger en RDF sur le site du projet, par exemple pour regarder ce que cela donne dans Protégé.

L’idée est que les différents formats peuvent exprimer des notions proches, mais pas tout à fait équivalentes, et c’est ce « pas tout à fait » qui est un cauchemar pour le producteur de mappings. Un concept peut être exprimé de façon fine dans un format et détaillée dans un autre, il peut être exprimé avec une orientation différente (par ex. « est l’auteur de » et « a pour auteur » : c’est « presque » la même chose, mais « pas tout à fait ») etc. Si on veut concevoir un générateur de mappings, il faut être capable d’embrasser toutes ces nuances, pour les exprimer et clarifier les relations entre les formats.
C’est ce que fait la Matrice, au moyen d’un système de « famille de concepts ». Ce modèle est orienté événement : quand un événement apparaît dans un format de métadonnées (par exemple, l’événement correspondant à une traduction) on va créer dans la Matrice une famille de concepts qui regroupe :
– les acteurs et les objets de l’événement,
– toutes les relations possibles entre ces acteurs et objets.
Ce qui donnera par exemple :

(le traducteur) traduit (la source)
(la source) est traduite par (le traducteur)
(le traducteur) crée (la traduction)
(la traduction) est créée par (le traducteur)
(la source) a pour traduction (la traduction)
(la traduction) est une traduction de (la source)
etc.

Ensuite, les différentes familles de concepts sont articulées entre elles (par exemple, « traduction des sous-titres » serait un concept spécifique rattaché au concept plus générique de « traduction »).
Enfin, on utilisera ces différentes familles de concepts pour relier les différents formats à la Matrice, en respectant toutes les nuances et les logiques intrinsèques de chacun d’entre eux.
Pour l’instant, les gens de VMF ont travaillé à l’alignement des formats suivants avec la matrice : CIDOC CRM, DCMI, DDEX, FRAD, FRBR, IDF, LOM (IEEE), MARC21, MPEG21 RDD, ONIX et RDA, ainsi que le « RDA-ONIX Framework », ce dernier étant le point de départ du projet.

Il en résulte que la Matrice pourra rarement proposer une équivalence simple entre deux éléments de formats différents. Elle proposera plutôt un « chemin » entre ces différents éléments, c’est-à-dire qu’elle parcourra de lien en lien le graphe RDF, pour trouver le (ou les) chemin(s) le plus court d’un concept à un autre. Pour cela, il est prévu de la requêter en SPARQL (mais pour l’instant, il n’y a pas de SPARQL endpoint sur le site du projet).

Je dirais donc que VMF a produit plutôt un générateur de mappings qu’un mapping universel, ce qui semble déjà un objectif plus raisonnable… En fait, du point de vue de la modélisation, l’approche est très séduisante.
C’est une approche qui cherche à être générique sans pour autant réduire les formats à un plus petit dénominateur commun, ce qui est louable. Elle prend en compte les spécificités et la complexité de chaque format.
Pour autant, ce qui n’est pas exprimé dans la Matrice, c’est la logique intrinsèque des jeux de données eux-mêmes, qui peut varier d’une application du format à une autre. En cela, c’est probablement utile d’avoir un générateur de mapping qui propose plusieurs options pour chaque élément, et qui permette ensuite au producteur du mapping de choisir ce qui lui semble le plus pertinent par rapport à ses propres données.

Les étapes suivantes du projet, telles qu’elles ont été présentées à la journée du 9 novembre, incluent :
– la validation des mappings déjà effectués par les autorités compétentes pour chacun des formats (les mappings sont pour l’instant « expérimentaux »)
– l’ajout de nouveaux mappings
– la recherche d’un modèle économique qui permette au projet de se développer sur le long terme.

Si vous voulez plus de détails sur comment fonctionne la Matrice et la création des mappings, un seul document, celui-là (PDF, 27 pages).
Je vous recommande également le billet de Sylvie Dalbin, qui est me semble-t-il assez complémentaire avec le mien. Avec ça, vous avez tous les éléments !

Livres dans le Linked Data

Il y a quelques temps, j’étais au Bookcamp 2 à Paris, où j’avais proposé d’animer un atelier sur le Web de données.

Pourquoi le Web de données ? Parce qu’il me semble urgent que les gens du livre – et pas seulement les bibliothèques – réfléchissent si possible ensemble à l’exploitation et à la valorisation de leurs métadonnées sur le Web, dans un mode ouvert, partagé et collaboratif.
Quand je dis collaboratif, ce n’est pas au sens « Web 2.0 » (je te taggue, tu me taggues par la barbichette etc.) mais plutôt au sens du Web de données : chacun produit ses données de façon standard, les met à disposition sur le Web de façon ouverte, et tout le monde peut les réutiliser et créer de la valeur.
L’avantage du Web sémantique dans ce contexte, comme je l’expliquais dans le « use case » présenté à Florence et sur lequel je suis revenue dans l’atelier du bookcamp, c’est de ne pas obliger toute la chaîne des producteurs à adopter le même format de métadonnées (ce qui est impossible, comme la vie nous le prouve chaque jour) et d’éviter les conversions d’un format à l’autre.

Probablement inspiré par ces cas d’utilisation livresques, Got s’est lancé dans la création d’un démonstrateur de ce que l’on peut déjà agréger comme données sur les livres avec ce qui est disponible aujourd’hui dans le linked data, c’est à dire rien que des données ouvertes, librement disponibles, en encodées en RDF. Le résultat est là : linked book mashup.
Vous remarquerez qu’il y a déjà (un peu) de données de bibliothèques dedans : celles de Libris, les autorités de la Library of Congress, et des liens avec Rameau.
Le reste provient de Freebase, DBpedia, etc.
Je vous laisse apprécier le résultat, avec un début de FRBRisation, des données enrichies, des visuels… Des tas de choses intéressantes. L’exemple le plus complet étant le Seigneur des Anneaux.

Cela doit être dans l’air du temps, car à peut près en même temps nous avons découvert que Talis avait aussi réalisé un démonstrateur du même acabit : Semantic Library.
L’approche est assez différente, reposant sur l’idée de mettre en valeur les liens entre les œuvres, les auteurs, les personnages, les sujets, etc. et de faciliter la navigation, plutôt que sur le fait d’agréger toutes les informations sur une page en mode « mash-up ». Mais c’est également très intéressant.
Autre point à noter : le site de Talis redistribue les données de son service en linked data.

Pour en revenir au BookCamp, je pense que l’atelier a été un moment riche d’échanges et de réflexions, même si ce qui frappe au premier abord c’est le flou autour de la notion de « web sémantique » et même de « web de données ».
Nous avons essayé de dépasser les problématiques purement techniques pour voir ce que le Web de données pouvait vraiment apporter en termes de service aux gens du livre.
Bien sûr, nous sommes revenus sur la question des droits de réutilisation et des licences, et celle de la valeur des données, qui est une question centrale notamment pour les bibliothèques.
Finalement, nous avons discuté organisation et compétences (deux thèmes qui me tiennent fort à cœur ;-) car si nous voulons vraiment que le Linked Data ait un avenir dans les bibliothèques, il va falloir que différents niveaux d’acteurs s’y intéressent et s’y investissent. De ce point de vue, la désaffection de la profession pour les questions de métadonnées (yes, MARC c’est tellement has been) me paraît inquiétante. J’espère qu’en démontrant les possibilités du Web sémantique pour le livre, nous pourrons réhabiliter un peu l’intérêt de ces choses certes à première vue un peu techniques et rébarbatives, mais tellement importantes.

IPRES 2009 (2) – les processus et l’Humain

Un deuxième thème récurrent de la conférence IPRES (après « la valeur et le temps ») c’est l’approche organisationnelle et humaine de la préservation numérique.

J’avoue que je suis arrivée à IPRES avec une attention particulière pour ce sujet, dans la mesure où je présentais moi-même un article, rédigé avec Louise Fauduet, sur les problématiques organisationnelles et humaines du numérique. Le programme m’avait laissé à penser que cet aspect serait peut traité mais en réalité, il était assez omniprésent. Ça prouve, semble-t-il, que « moving into the maintream » n’était pas seulement un vœu pieu pour le titre de la conférence, mais une réalité des actions menées par les uns et les autres.

La question des organisations a été en particulier traitée à travers celle des réseaux et de la constitution d’archives distribuées, et ce en particulier dans la présentation de Martha Anderson de la Library of Congress, et au cours du Panel qui a suivi.
Martha a présenté les résultats d’une étude réalisée par IBM pour le NDIIPP. Elle nous a montré différents modèles de réseaux d’organisations, avec un pilotage plus ou moins fort, et ce qu’ils impliquent en termes d’efforts et de coûts. Le panel portait sur la mise en place de Private LOCKSS Networks.
J’ai bien aimé la réflexion sur le passage à l’échelle de la collaboration. C’est un peu comme la commission européenne… quand on est peu nombreux on arrive à fonctionner de façon informelle, mais si on veut s’étendre et accueillir de nouveaux membres, il faut passer par une phase de formalisation des stratégies, de la politique, de la gouvernance, et aussi des méthodes d’accompagnement et de formation.
Les effets de seuil existent aussi bien sur le plan technique, quand on passe de quelques centaines de GigaOctets à plusieurs dizaines ou centaines de Téra, que sur le plan organisationnel et humain. Cela implique aussi la mise en place d’outils appropriés comme les « micro-services » de la California Digital Library ou le système proposé par Chronopolis.

L’analyse des processus et la mise en place d’outils comme des guides de bonnes pratiques pour fluidifier les processus jouent un rôle essentiel dans cette formalisation.

Il existe des initiatives telles que les travaux réalisés par le réseau allemand Nestor sur la négociation du versement (« Into the archive »), ou les résultats du projet européen Planets. Toutefois on peut se demander, et la question a été posée en ces termes, qui fait réellement de la planification de la préservation aujourd’hui… Les différentes enquêtes réalisées dans le cadre de projets européens (et je dis, différentes, à dessein car il y en a eu plusieurs, souvent apparemment redondantes…) montrent encore pas mal d’incertitudes sur les actions à prendre, les stratégies à adopter, les normes à recommander.

Le lendemain d’IPRES, j’ai assisté à la journée « Active solutions » organisée par le consortium IIPC pour l’archivage du Web, et je dois avouer que j’ai été impressionnée par le degré de maturité de cette communauté sur toutes ces questions.
Leur approche des questions techniques (comme le format WARC) est résolument pilotée par une vision de long terme qui intègre les problématiques de planification de la préservation dès le début de la chaîne. L’après-midi était consacré aux questions d’organisation et de processus.
Cette journée m’a donné à penser que les « web-archivistes », une fois qu’ils auront résolu leurs (enôôôrmes) problèmes techniques, auront tellement d’avance qu’ils seront capables d’absorber tous les problèmes de préservation numérique des bibliothèques, enfin d’en réduire l’onde de choc, un peu comme un gros air-bag. Plus que jamais, préserver la mémoire du Web m’est apparu non pas comme un défi un peu fou, mais comme une action organisée, qui a du sens dans la perspective de l’histoire et des collections.
Une grande bouffée d’espoir donc ;-)