VMF : et que les mappings soient

Le 9 novembre dernier, il y a presque une éternité, j’étais à Londres pour assister à la présentation des résultats du projet VMF : Vocabulary Mapping Framework.
Ils ont attendu presque aussi longtemps que moi pour mettre leurs résultats en ligne, ce qui me donne l’occasion de revenir un peu sur ce projet et ce qui en a résulté dans la première phase, qui vient donc de se terminer.

D’abord, rappelons les objectifs du projet : annoncé en juin 2009, le projet VMF se donnait pour objectif de réaliser un mapping de tous les formats de métadonnées majeurs, au moyen d’une ontologie en OWL.
Vous vous souvenez peut-être que ce projet m’avait à l’époque laissée un peu songeuse
Oui, c’est vrai, cela me semblait un objectif ambitieux (trop) et je ne voyais pas très bien où ils voulaient en venir, surtout en si peu de temps. Mais maintenant les choses me semblent plus claires et je pense arriver à comprendre ce que ce projet peut apporter. Ce n’est pas un mapping universel de tous les formats de métadonnées, mais plutôt un outil d’aide à la conception de mappings entre des formats de métadonnées deux à deux.

Dans les grandes lignes, le principe est le suivant :
– imaginons qu’on veuille faire correspondre les formats W, X, Y et Z (soit, les mappings W–X, W–Y, W–Z, X–Y, X–Z et Y–Z)
– on crée une ontologie générique, qui s’appelle la Matrice (the Matrix, fallait l’inventer ;-)
– on crée ensuite le mapping de chaque format vers la Matrice (W–Matrice, X–Matrice, Y–Matrice, Z–Matrice)
– on requête la Matrice pour qu’elle propose des équivalences entre deux formats (W–Matrice–X, W–Matrice–Y, etc.)
– on a ainsi obtenu les correspondances entre les formats souhaités en faisant 4 mappings au lieu de 6.
Ceux qui savent très bien compter auront compris que l’opération n’a d’intérêt qu’à partir du moment où on cherche à faire se correspondre plus de 3 formats, mais plus on a de formats, plus le bénéfice est important : dans l’environnement actuel, cela devrait donc être facile de rentabiliser l’opération ;-)

Pour ce faire, VMF s’appuie sur le modèle INDECS pour créer une ontologie qui est suffisamment complexe pour exprimer toutes les notions ou concepts existant dans les différents formats de métadonnées. C’est cette ontologie, exprimée en RDF, qui constitue la Matrice. Vous pouvez la télécharger en RDF sur le site du projet, par exemple pour regarder ce que cela donne dans Protégé.

L’idée est que les différents formats peuvent exprimer des notions proches, mais pas tout à fait équivalentes, et c’est ce « pas tout à fait » qui est un cauchemar pour le producteur de mappings. Un concept peut être exprimé de façon fine dans un format et détaillée dans un autre, il peut être exprimé avec une orientation différente (par ex. « est l’auteur de » et « a pour auteur » : c’est « presque » la même chose, mais « pas tout à fait ») etc. Si on veut concevoir un générateur de mappings, il faut être capable d’embrasser toutes ces nuances, pour les exprimer et clarifier les relations entre les formats.
C’est ce que fait la Matrice, au moyen d’un système de « famille de concepts ». Ce modèle est orienté événement : quand un événement apparaît dans un format de métadonnées (par exemple, l’événement correspondant à une traduction) on va créer dans la Matrice une famille de concepts qui regroupe :
– les acteurs et les objets de l’événement,
– toutes les relations possibles entre ces acteurs et objets.
Ce qui donnera par exemple :

(le traducteur) traduit (la source)
(la source) est traduite par (le traducteur)
(le traducteur) crée (la traduction)
(la traduction) est créée par (le traducteur)
(la source) a pour traduction (la traduction)
(la traduction) est une traduction de (la source)
etc.

Ensuite, les différentes familles de concepts sont articulées entre elles (par exemple, « traduction des sous-titres » serait un concept spécifique rattaché au concept plus générique de « traduction »).
Enfin, on utilisera ces différentes familles de concepts pour relier les différents formats à la Matrice, en respectant toutes les nuances et les logiques intrinsèques de chacun d’entre eux.
Pour l’instant, les gens de VMF ont travaillé à l’alignement des formats suivants avec la matrice : CIDOC CRM, DCMI, DDEX, FRAD, FRBR, IDF, LOM (IEEE), MARC21, MPEG21 RDD, ONIX et RDA, ainsi que le « RDA-ONIX Framework », ce dernier étant le point de départ du projet.

Il en résulte que la Matrice pourra rarement proposer une équivalence simple entre deux éléments de formats différents. Elle proposera plutôt un « chemin » entre ces différents éléments, c’est-à-dire qu’elle parcourra de lien en lien le graphe RDF, pour trouver le (ou les) chemin(s) le plus court d’un concept à un autre. Pour cela, il est prévu de la requêter en SPARQL (mais pour l’instant, il n’y a pas de SPARQL endpoint sur le site du projet).

Je dirais donc que VMF a produit plutôt un générateur de mappings qu’un mapping universel, ce qui semble déjà un objectif plus raisonnable… En fait, du point de vue de la modélisation, l’approche est très séduisante.
C’est une approche qui cherche à être générique sans pour autant réduire les formats à un plus petit dénominateur commun, ce qui est louable. Elle prend en compte les spécificités et la complexité de chaque format.
Pour autant, ce qui n’est pas exprimé dans la Matrice, c’est la logique intrinsèque des jeux de données eux-mêmes, qui peut varier d’une application du format à une autre. En cela, c’est probablement utile d’avoir un générateur de mapping qui propose plusieurs options pour chaque élément, et qui permette ensuite au producteur du mapping de choisir ce qui lui semble le plus pertinent par rapport à ses propres données.

Les étapes suivantes du projet, telles qu’elles ont été présentées à la journée du 9 novembre, incluent :
– la validation des mappings déjà effectués par les autorités compétentes pour chacun des formats (les mappings sont pour l’instant « expérimentaux »)
– l’ajout de nouveaux mappings
– la recherche d’un modèle économique qui permette au projet de se développer sur le long terme.

Si vous voulez plus de détails sur comment fonctionne la Matrice et la création des mappings, un seul document, celui-là (PDF, 27 pages).
Je vous recommande également le billet de Sylvie Dalbin, qui est me semble-t-il assez complémentaire avec le mien. Avec ça, vous avez tous les éléments !

Archives du Web : une vision

Pour commencer l’année sur une note lyrique, j’ai envie de revenir sur quelques réflexions qui me sont venues lors d’IPRES et de la journée « Active Solutions » d’IIPC. En effet, à cette occasion, pas seulement parce que je me trouvais en Californie, qu’il faisait brumeux le matin et soleil l’après-midi et que San Francisco est une ville magnifique, mais aussi parce que j’étais bien entourée et parce que les organisateurs desdits événements ont fait un boulot superbe, j’ai eu l’impression de transcender la connaissance que j’avais de l’archivage du Web, ses modalités et ses finalités.

Pour comprendre, il faut dire que je côtoie l’archivage du Web depuis maintenant quelques années, géographiquement et intellectuellement, et de suffisamment près pour m’être forgé quelques idées fausses (ou idées reçues) sur cette activité. Pour les énoncer un peu comme ça en vrac :
– l’archivage du Web, c’est intrinsèquement lié au dépôt légal ;
– les utilisateurs sont des gens du futur qu’on ne connaît pas et dont on ignore les vrais besoins ;
– les gens qui font de l’archivage du Web sont une toute petite communauté avec des compétences et des besoins très spécifiques.
Et oui, il a fallu que je traverse la planète pour enfin comprendre la portée de cette activité qui se déroulait juste là, à côté de moi, sous mes yeux depuis des années.

D’abord, je me suis rendu compte que l’archivage du Web, ce n’est pas seulement le dépôt légal, et de fait, cela ne concerne pas que les bibliothèques nationales. L’archivage du Web est un ensemble de techniques qui permettent de constituer une collection locale et pérenne à partir de contenus accessibles en ligne. En fait, il y a une multitude d’applications possibles à cela : archiver des périodiques en ligne comme le fait LOCKSS, constituer des collections de sources pour des équipes de chercheurs d’une université, archiver ses propres publications Web pour en garder la mémoire, etc.
Vu comme cela, l’archivage du Web peut être utilisé par tout type d’établissement, et à une variété d’échelle. Les « private LOCKSS networks » utilisent ainsi le dispositif technique de LOCKSS, à l’origine conçu pour collecter des revues en ligne, pour collecter des archives Web partagées de toute sorte. Le service « Archive It » proposé par Internet Archive permet à des institutions qui n’ont pas les moyens de mettre en place des processus d’archivage du Web de constituer quand même ce type de collections, en se reposant sur un intermédiaire technique. Bref, dès lors qu’on est capable de cibler les besoins d’un public et de s’organiser en processus, on peut constituer une collection, dont le public en question n’est donc pas forcément lointain et hypothétique : il existe un besoin et un public pour les archives du Web, tout de suite, maintenant.
En fait, dans un monde où la plupart des médias et des contenus que nous connaissons effectuent une translation vers le Web, les archives du Web permettent d’envisager l’archivage de ce qui n’est pas archivable, c’est-à-dire tout le contexte d’une activité ou d’un événement tel qu’il transparaît à travers les publications et les conversations sur le Web. Tout est là, disponible, en ligne : les logiciels, les réseaux sociaux, les données et les sources que les chercheurs utilisent, la documentation que les utilisateurs créent eux-mêmes sur leur vie et mettent en ligne. Ainsi, la meilleure façon de donner une idée dans le futur de ce que sont les mondes virtuels comme Second Life, n’est-elle pas d’archiver les blogs, les copies d’écran, les extraits vidéo… qui sont la capture, par les utilisateurs eux-mêmes, de ce qui se passe dans ces univers…
C’est ici que cela fait vraiment sens de parler « d’archivage » du Web, car on est dans des démarches documentaires qui travaillent sur la source, le contexte, le fonds, dans une logique plus proche de l’archivistique que de la bibliothéconomie.

Là où cela devient intéressant, c’est que ces archives du Web de toute nature, ces collections, elles ont une homogénéité matérielle sans précédent. A l’image du matériau qui les constituent, les collections Web sont totalement granulaires, et intégrées : elles sont à la fois constituées d’unités très petites, et à la fois globales car toutes ces unités sont compatibles entre elles. De plus, elles sont élaborées par une communauté qui a su s’organiser pour partager ses outils, ses formats, ses processus.
Ce qui fait que les archives du Web sont en fait une grande collection partagée, techniquement et structurellement homogène. C’est la politique documentaire qui fait la spécificité des différents « nœuds » de cette grande collection, qui justifie que telle bibliothèque conserve telles données, et telle autre, etc.
Qui dit homogénéité technique et collection partagée suppose une approche de la préservation numérique cohérente et globale. Les travaux effectués sur le format WARC (qui permet de stocker les archives du Web et de les exploiter) laissent entrevoir une réflexion plus que prometteuse en ce sens : en effet ce format a été réfléchi dès le départ pour intégrer les problématiques de gestion des fichiers mais aussi de leurs métadonnées, y compris les métadonnées techniques et de provenance si nécessaires à la préservation. Il gère aussi les liens entre les fichiers, les versions, les métadonnées.
Du point de vue des stratégies de préservation, il me semble que les archives du Web nous ont fait vraiment avancer en nous obligeant à reconsidérer la traditionnelle opposition binaire entre migration et émulation. Il y a quelques années, on pensait qu’on ne pourrait jamais préserver quoi que ce soit sans migrer. Puis revirement à 180° : on s’est rendu compte qu’on n’aurait pas les moyens de migrer, et tout à coup on ne jurait plus que par l’émulation. Les stratégies envisagées actuellement sont plus subtiles, elles cherchent à combiner les deux approches, à trouver un équilibre. Il n’y aura pas de traitement unique et radical pour la conservation à long terme d’un matériau aussi divers, souple et mouvant que les archives du Web.

Évidemment, nous sommes encore au début de l’histoire des archives du Web et il y a encore des problèmes, d’énormes problèmes (c’est le mot) : d’abord la masse… Des millions ou milliards de fichiers… des centaines ou milliers de Teraoctets… des dizaines ou centaines de formats… nous sommes face à une échelle qui peut donner l’impression d’un défi un peu fou, limite décourageant.
La maturité des outils et des processus laisse encore à désirer, face à des choses qu’on n’a pas encore essayé de faire et qui sont donc encore au stade de la théorie (comme migrer l’ancien format de stockage des archives Web, ARC, vers le nouveau format normalisé WARC) : il va falloir progresser à petits pas, expérimenter, commencer petit sans se laisser démonter par l’ampleur du chemin à parcourir.
Et puis il y a le Web lui-même, dans ses composantes les plus complexes : le web caché (dans des bases de données) – le Web verrouillé (derrière des mots de passe ou des DRM) – le Web exotique et bizarre (en termes de formats de fichiers, qui chaque jour naissent et meurent…) – le Web spammé et vérolé (mais c’est quand même le Web : ne faut-il pas aussi en garder la mémoire ?)

Mais malgré tout, je me disais, là-bas à San Francisco, que cette petite communauté (mais pas si petite que ça en fait) des Web-archivistes, avec son action pragmatique, efficace, une fois qu’elle aurait avancé et résolu ces problèmes, allait nous aider à absorber d’une façon plus globale les défis de gestion et de préservation des autres types de collections numériques.
A San Francisco, j’ai eu une vision : celle d’une révolution copernicienne. De la même façon que le Web est en train d’absorber l’information du monde, les archives du Web finiront par se présenter assez naturellement comme la solution technique la plus simple pour traiter, par exemple, la collecte de machins numériques de toute sorte, le versement de ces machins dans les systèmes de préservation, la migration de gros volumes de données, le pilotage des stratégies d’émulation, la gestion des moyens, des coûts et des indicateurs, etc. etc.
Enfin, parmi les trucs (le « contexte ») que l’on va pouvoir archiver sur le Web, il y aura aussi tous les facilitateurs de préservation numérique : la documentation des logiciels et des formats par exemple.
C’est un peu fou de penser qu’aujourd’hui, on a une approche complètement dissociée de nos techniques documentaires traditionnelles et de l’archivage du Web. Ainsi, toutes les travaux de constitutions des répertoires de formats (Pronom, UDFR etc.) ont mis tout ce temps à déboucher sur une initiative expérimentale de publication dans le linked data appelée P2. Dans le linked data, c’est à dire sur le Web. Pourquoi on se tuerait à inventer des processus de réplication, de partage de données, etc. alors qu’ils existent déjà, entre le Web sémantique et les archives du Web…
Pareil pour la gestion des collections d’objets numériques. On est en train de construire des usines à gaz spécifiques pour gérer les millions de fichiers qu’on produit dans le cadre de nos ambitieux programmes de numérisation. Franchement c’est du très beau travail, mais je suis sûre qu’on finira par se réveiller un matin et se rendre compte que les bibliothèques numériques ne sont qu’une collection Web parmi d’autres. Non ? Et qu’avec l’archivage du Web, on a déjà des solutions scalables, pragmatiques, efficaces.
Il reste un truc qui me manque dans cette vision, c’est de savoir comment on pourrait rapprocher tout cela de nos réflexions sur la publication des données de bibliothèques dans le Web sémantique. Tout est une question de données qui sont là présentes sur le Web et qu’on relie entre elles. Il me semble que si on arrivait à progresser vraiment sur la publication des données structurées dans le Web sémantique, en utilisant des technos vraiment Web comme le fameux HTTP-range14 (plus connu sous le nom de « Cool URIs for the semantic Web »), on arriverait aussi à faire progresser les services qu’on est capable de construire sur les archives du Web ; de faire un peu mieux que la recherche par URL et la recherche plein-texte à pertinence relative ; et peut-être même de construire des choses intéressantes en matière de collecte ciblée et de stratégies de continuité de collection et de conservation.
Mais pour l’instant tout ceci n’est encore qu’au stade de l’intuition.

Pour en savoir plus, deux articles à lire dans l’ouvrage Les collections électroniques, une nouvelle politique documentaire (sous la dir. de Pierre Carbone et François Cavalier, éditions du Cercle de la Librairie, collection Bibliothèques, 2009) :
– « Quelle politique documentaire pour l’archivage des sites internet » par Gildas Illien et Clément Oury
– et « La conservation des documents numériques » par votre serviteuse.

Livres dans le Linked Data

Il y a quelques temps, j’étais au Bookcamp 2 à Paris, où j’avais proposé d’animer un atelier sur le Web de données.

Pourquoi le Web de données ? Parce qu’il me semble urgent que les gens du livre – et pas seulement les bibliothèques – réfléchissent si possible ensemble à l’exploitation et à la valorisation de leurs métadonnées sur le Web, dans un mode ouvert, partagé et collaboratif.
Quand je dis collaboratif, ce n’est pas au sens « Web 2.0 » (je te taggue, tu me taggues par la barbichette etc.) mais plutôt au sens du Web de données : chacun produit ses données de façon standard, les met à disposition sur le Web de façon ouverte, et tout le monde peut les réutiliser et créer de la valeur.
L’avantage du Web sémantique dans ce contexte, comme je l’expliquais dans le « use case » présenté à Florence et sur lequel je suis revenue dans l’atelier du bookcamp, c’est de ne pas obliger toute la chaîne des producteurs à adopter le même format de métadonnées (ce qui est impossible, comme la vie nous le prouve chaque jour) et d’éviter les conversions d’un format à l’autre.

Probablement inspiré par ces cas d’utilisation livresques, Got s’est lancé dans la création d’un démonstrateur de ce que l’on peut déjà agréger comme données sur les livres avec ce qui est disponible aujourd’hui dans le linked data, c’est à dire rien que des données ouvertes, librement disponibles, en encodées en RDF. Le résultat est là : linked book mashup.
Vous remarquerez qu’il y a déjà (un peu) de données de bibliothèques dedans : celles de Libris, les autorités de la Library of Congress, et des liens avec Rameau.
Le reste provient de Freebase, DBpedia, etc.
Je vous laisse apprécier le résultat, avec un début de FRBRisation, des données enrichies, des visuels… Des tas de choses intéressantes. L’exemple le plus complet étant le Seigneur des Anneaux.

Cela doit être dans l’air du temps, car à peut près en même temps nous avons découvert que Talis avait aussi réalisé un démonstrateur du même acabit : Semantic Library.
L’approche est assez différente, reposant sur l’idée de mettre en valeur les liens entre les œuvres, les auteurs, les personnages, les sujets, etc. et de faciliter la navigation, plutôt que sur le fait d’agréger toutes les informations sur une page en mode « mash-up ». Mais c’est également très intéressant.
Autre point à noter : le site de Talis redistribue les données de son service en linked data.

Pour en revenir au BookCamp, je pense que l’atelier a été un moment riche d’échanges et de réflexions, même si ce qui frappe au premier abord c’est le flou autour de la notion de « web sémantique » et même de « web de données ».
Nous avons essayé de dépasser les problématiques purement techniques pour voir ce que le Web de données pouvait vraiment apporter en termes de service aux gens du livre.
Bien sûr, nous sommes revenus sur la question des droits de réutilisation et des licences, et celle de la valeur des données, qui est une question centrale notamment pour les bibliothèques.
Finalement, nous avons discuté organisation et compétences (deux thèmes qui me tiennent fort à cœur ;-) car si nous voulons vraiment que le Linked Data ait un avenir dans les bibliothèques, il va falloir que différents niveaux d’acteurs s’y intéressent et s’y investissent. De ce point de vue, la désaffection de la profession pour les questions de métadonnées (yes, MARC c’est tellement has been) me paraît inquiétante. J’espère qu’en démontrant les possibilités du Web sémantique pour le livre, nous pourrons réhabiliter un peu l’intérêt de ces choses certes à première vue un peu techniques et rébarbatives, mais tellement importantes.

Modéliser le Linked Data

Quand on se lance dans la modélisation, je suppose qu’à un moment on atteint un degré de complaisance (ou peut-être de folie furieuse) qui amène à tout théoriser, et pour que le modèle tienne la route, on finit par être obligé de créer des modèles qui expliquent comment on modélise les modèles.

Ça va vous paraître fou, mais en fait, c’est utile.

En juin j’ai visiblement raté une bonne occasion d’aller à Madrid pour la conférence Linked data on the Web 2009.
A noter dans les papiers de cette conférence, deux propositions intéressantes pour aider à modéliser le Linked Data.

La première, c’est IRW : Information Resources on the Web Ontology, par Harry Halpin et Valentina Presucci.
Pour les puristes, l’ontologie elle-même est ici.
Cette ontologie s’attaque à des notions sur lesquelles on peut gloser pendant des jours : les ressources informationnelles et non informationnelles, les représentations, les réalisations Web d’une ressource, et leurs URI respectives. La seule question qu’elle ne pose pas (probablement par pudeur ;-) c’est… la notion de document.

L’autre c’est un vocabulaire pour gérer la provenance dans le Linked Data, par Olaf Hartig de l’Université Humboldt de Berlin.
La spécification est ici pour les puristes, et pour ceux qui aiment plutôt les petits dessins, le powerpoint est .
Il s’agit de contribuer à l’établissement de la confiance dans le Linked Data en modélisant les informations de provenance qu’on peut associer à un ensemble de données.

Il y a plein d’autres trucs intéressants dans cette conférence. C’est juste que j’ai pas encore eu le temps de regarder.

IFLA (4) – User generated content, tagging sémantique et Web 2.0

Mieux vaut tard que jamais ;-) je poursuis ma série de comptes-rendus de l’IFLA (ce qui me rassure c’est qu’en regardant les autres blogs la plupart n’ont pas eu beaucoup plus de temps que moi pour bloguer pendant le congrès… C’est que ça occupe, un congrès de l’IFLA…)

Un autre thème sur lequel je voudrais revenir, c’est celui des contenus générés par les utilisateurs (UGC de leur petit nom).

Comme nous avons beaucoup parlé de Web 2.0, la question du « tagging » s’est posée à différentes reprises, avec un constat un peu déprimant : les utilisateurs ne vont pas tagguer dans les catalogues de bibliothèque. Faire des listes, oui, tagguer ailleurs, peut-être, mais dans les catalogues ? peu de chances.
Un jour autour d’un verre, nous avons échangé quelques idées amusantes pour essayer d’envisager une méthode pour contrebalancer cette tendance… Par exemple un système similaire à Booking.com : quelques jours après la fin de votre séjour, on vous envoie un mail avec un questionnaire pour évaluer l’hôtel. Et si on faisait de même quand un lecteur emprunte un livre à la bibliothèque ?
Une autre idée consistait à proposer une étagère de retour de prêt qui serait compartimentée en fonction de l’intérêt du bouquin (intéressant – ennuyeux – etc.) : apparemment ça a déjà été testé, si vous avez vu ça quelque part je serais curieuse d’en avoir la référence.
Blague à part, ce qu’il faut en retenir comme toujours, c’est que si on veut générer des contributions des utilisateurs, il faut que ce soit 1. facile, 2. pertinent par rapport à leur pratique, et 3. que cela fasse partie d’un dispositif d’incitation.
Ces trois critères sont semble-t-il parfaitement remplis par l’application de correction de l’OCR de la numérisation de la presse à la Bibliothèque nationale d’Australie (voir la présentation de Pam Gatenby à l’IFLA – voir le site – voir les informations sur le projet). Et ça marche : comme quoi, on peut arriver à mobiliser les utilisateurs sur des tâches pénibles et en plus ils adorent ça ;-) Noter qu’ils diffusent le code de leur application en open source.

Face aux possibilités du Web 2.0, la question critique de l’indexation sujet a été posée (pendant la table ronde de la conférence satellite Emerging trends… à Florence) : devrait-on arrêter d’indexer de façon aussi complexe que nous le faisons aujourd’hui ? L’indexation sujet, jugée à la fois coûteuse à produire et trop complexe à utiliser, était en question.
A mon avis à l’heure actuelle prendre une décision aussi radicale est impossible, d’autant qu’on sait pertinemment que les utilisateurs veulent des accès sujets, et qu’ils ne veulent pas les créer eux-mêmes (puisqu’ils ne veulent pas tagguer dans les catalogues).
Une solution envisageable pourrait résider dans le « tagging sémantique » par des bibliothécaires : c’est-à-dire, en fait, exploiter la richesse des vocabulaires contrôlés, mais sans la contrainte de la syntaxe, et en utilisant la puissance des ontologies pour les relier et les augmenter.
C’est intéressant, mais il va falloir du temps pour mesurer toutes les implications d’une telle évolution. Elle mériterait d’être organisée, évaluée, préparée au niveau international, pour permettre une évolution concertée des données bibliographiques dans le monde, vers le Web sémantique. L’IFLA peut sûrement jouer un rôle dans ce type de changements.
Et puis, mon petit doigt me dit qu’on a pas encore imaginé toutes les possibilités qu’ouvre une initiative comme Rameau en skos en termes d’exploitation sémantique des données…

Au final, et pour en finir avec le Web 2.0 dans les bibliothèques à l’IFLA, je voudrais noter une idée que j’ai retenue des différents événements qui ont abordé cette question, en particulier la conférence satellite, la session « Social computing tools for learning and knowledge sharing » (dans laquelle j’ai particulièrement apprécié l’intervention de Moira Fraser), et la rencontre du SIG « Libraries and the Web 2.0 ». Cette idée c’est que la bibliothèque 2.0 commence avec des petites choses toutes simples : avoir un compte Twitter, un blog, communiquer par l’image et la vidéo et pas seulement par du texte, sortir du paradigme de la présentation magistrale avec powerpoint. Être 2.0, c’est un peu comme se brosser les dents après chaque repas, ou manger cinq fruits et légumes par jour : quelque chose qui doit rapidement devenir un réflexe naturel du quotidien, pas une contrainte. Sinon, c’est voué à l’échec.

IFLA (1) – satellite de Florence

L’IFLA commence avec les pré-conférences satellites qui se déroulent dans différentes villes à proximité de celle du Congrès.

Pour ma part, j’ai participé hier et aujourd’hui à celle qui était organisée par la section Information technology, et s’intitulait : Emerging trends in technology: libraries between Web 2.0, semantic web and search technology.

Avant toute chose, je dois dire que c’était une conférence remarquable par son ambiance, le cadre très agréable de l’université de Florence, la qualité de l’accueil, et la sympathie des participants.
Cette bonne ambiance transparaît largement dans le fil Twitter de la conférence ; c’était la première fois que je twittais une conférence en direct, et ç’a été une expérience excellente, sur le plan intellectuel et humain.
Le fait de twitter oblige à se concentrer sur le déroulé des interventions pour en repérer les points saillants ; en suivant simultanément le fil de la conférence, on avait une bonne vision de la réception de l’intervention par la salle et on voyait émerger les questions. C’est aussi excellent pour échanger des liens et des références pertinentes, en temps réel. Et pour se faire de nouveaux amis ;-)
De façon un peu périphérique, j’ai noté ce billet sur l’usage de Twitter dans les conférences… Je pense que vous n’avez donc pas fini de me voir envoyer des twits (à condition que la qualité de l’accès wifi soit aussi bonne à Milan).

En ce qui concerne le détail du contenu de ces deux jours, je vous renvoie à notre remarquable prise de notes collective sur Twitter, et je me contenterai ici d’une synthèse en soulignant les points qui me semblent particulièrement intéressants. Les présentations ainsi que le texte complet des articles seront également disponibles prochainement sur le site de la conférence.

La conférence d’ouverture (Keynote) de Stephen Abrams (Sirsidynix) a donné le ton en prônant la prise en compte des utilisateurs comme priorité numéro un pour les bibliothèques.
Définitivement, l’espace physique et l’espace numérique ne sont plus dissociables, et les relations distantes, à travers des terminaux comme l’iPhone, sont devenues primordiales. Le défi du Web 2.0, c’est le changement des rapports humains : davantage de collaboration, de multimédia, de divertissement, de participation, de gratuité, de personnalisation, de granularité. La bibliothèque de demain, c’est un monde où chacun veut être reconnu comme unique, pouvoir prendre sa clé allen pour construire son propre outil, où on ne cherche pas l’information mais où on la trouve, ou les relations sont plus importantes que les transactions.

Le reste de la conférence a montré que les bibliothèques sont totalement entrées dans l’ère du 2.0, que le Web 2.0 ne se différencie plus du Web tout court, c’est le Web dans lequel nous sommes, et nous commençons déjà à regarder au-delà, vers le Web 3.0.
Cela se manifeste en particulier par un questionnement qui a dépassé les préoccupations que nous avions il y a quelques années, soit purement techniques (comment faire un blog, qu’est-ce que RSS…) soit purement éthiques (est-ce que Wikipedia c’est mal…) Les bibliothécaires ont pris acte de ce nouveau Web, et maintenant leur question porte plutôt sur la dimension organisationnelle de leur présence dans le Web 2.0.
Sont ainsi revenues à plusieurs reprises les questions de compétences, de formation, de profil de recrutement des bibliothécaires 2.0.
La question de l’innovation est aussi essentielle et elle oppose un modèle « disruptif », qui a été présenté par Ken Chad, dans lequel on met en place une équipe dédiée qui lance des réalisations très rapidement et accepte de les voir pour une part échouer, et un modèle beaucoup plus réfléchi (mais qui n’en est pas moins nouveau à mon avis) où les bibliothécaires s’interrogent sur le réel besoin des utilisateurs et envisagent de mettre en place des moyens permettant d’évaluer le retour sur investissement des outils Web 2.0. Ce deuxième modèle a été bien illustré par Laura Rinnovati. En termes d’évaluation, le travail de Pnina Shachaf sur les services de référence en ligne était très parlant.

Au-delà de ces aspects Web 2.0, il a été beaucoup question de l’ouverture des données et de leur mise à disposition dans le Web sémantique. Nicola Benvenuti a défini le Web 3.0 en s’appuyant notamment sur le Linked data (qui en est une des composantes, mais pas la seule.)
Finalement, la conférence était assez peu technique et même sur ces questions, ce qui a été le plus abordé ce sont les aspects stratégiques de la chose : le positionnement juridique sur la diffusion des données, l’utilisation des standards, la mise en place de méthodologies de développement adaptées. Il n’a quasiment pas été question des problèmes de modélisation des données, sauf pour dire (je l’emprunte à Martin Malmsten de Libris) qu’elle peut durer éternellement, et qu’il ne faut surtout pas attendre d’avoir fini pour commencer à mettre en place des réalisations. Anne Christensen, en présentant son très intéressant projet de catalogue nouvelle génération Beluga, a posé la question du « make or buy » : faut-il acheter une solution toute faite ou développer en interne avec des briques open source ? A Hambourg ils ont opté pour le second choix, ce qui leur permet d’employer des méthodes itératives et centrées utilisateur.

Le Web 2.0 et le Web sémantique se rencontrent assez naturellement, à travers des projets de type mash-ups (j’en ai évoqué quelques-uns dans ma présentation) ou des projets comme EnTag de Ukoln qui visent à rapprocher les principes des folksonomies et ceux des ontologies. Sur le même sujet, la présentation d’Alefeh Sharif était très pertinente également.
Evidemment cela m’a rappelé des propos que Got tenait il y a déjà trois ans

Le grand absent de cette conférence, c’était le troisième thème appelé par le programme : « search technologies ». Nous l’avons un peu évoqué pendant la table ronde, mais surtout pour constater que dans notre communauté, les compétences permettant de maîtriser les technologies de recherche d’information non structurée, voire non textuelle, font cruellement défaut. Ce sera un bon sujet pour une prochaine conférence…

Les données bibliographiques sur le Web

Martha Yee nous a proposé dernièrement une intéressante réflexion : Can bibliographic data be put directly onto the semantic Web ?
Dans cet article, elle relate une expérimentation qu’elle a réalisée sur la FRBRisation et RDFisation de données bibliographiques, et qui débouche sur une liste de 13 questions qu’elle se pose sur l’utilisation de RDF pour exprimer des données bibliographiques.
Son article est intéressant même si à mon avis il part parfois sur des malentendus (par exemple, l’idée que RDF a été conçu pour l’intelligence artificielle ou encore la nécessité de « réguler » l’attribution des URI au niveau global). Toutefois beaucoup des questions qu’elle se pose me semblent plutôt relever de la modélisation de nos données en tant que telle (et de faiblesses dans le modèle FRBR et autres) plutôt que de l’utilisation de RDF.
De même, à différentes reprises, les problématiques liées à la modélisation sont mêlées avec celles qui relèvent plutôt des applications qui vont utiliser les données, ce qui ne simplifie pas la lecture de l’article.

On retrouve ces considérations chez Karen Coyle, qui a rédigé une série de réponses extrêmement pertinentes sur son blog :
introduction
– réponse aux questions : 1 et 2,
– réponse aux questions : 3, 4 et 5,
– réponse aux questions : 6, 7 et 8,
– réponse aux questions : 9, 10 et 11,
– et enfin réponse aux questions : 12 et 13.
Je conseillerais pratiquement de lire ces réponses plutôt que (ou au moins, en même temps que) l’article original. Elles contribuent à clarifier extrêmement les choses et soulèvent plein de défis passionnants sur ce qu’il faudra remettre en cause dans nos pratiques à l’heure de passer les formats MARC en RDF.

Je complèterais cette série de lectures par un billet d’Eric Hellman sur son très excellent blog, dans lequel il demande malicieusement : Can librarians be put directly onto the semantic web ?
Le problème ne réside en effet pas uniquement dans les données, mais aussi dans le fait que les bibliothécaires vont devoir changer de paradigme. Je le cite (et le traduis) :

Alors que les métadonnées des bibliothèques ont traditionnellement été conçues pour pour aider des humains à trouver et utiliser l’information, les technologies du Web sémantique sont conçues pour aider des machines à trouver et utiliser l’information. Les métadonnées étaient destinées à être vues et exploitées par des humains, ce qui a été à l’origine d’une relation plutôt inconfortable avec les bases de données relationnelles. Les ontologies du Web sémantique, au contraire, sont faites pour rendre les métadonnées compréhensibles et exploitables pour les machines. Une ontologie est déjà une sorte de programme informatique, et concevoir un schéma RDF est la première étape pour indiquer à un ordinateur comment traiter un certain type d’information.

Et d’assimiler le travail de Martha à celui d’un programmeur, parce que dans sa démarche de modélisation, elle imagine les comportements de la machine vis-à-vis des données.

Pour aller encore au-delà (et faire plaisir à mon geek préféré qui va faire des bonds sur sa chaise en lisant tout ça), je dirais que dans un monde idéal, le Web sémantique devrait nous permettre de nous abstraire de la façon dont les humains et les machines vont utiliser les données. Si le modèle est fait correctement, il devrait permettre à d’autres d’inventer de nouvelles façons, non-bibliothéconomiques, de traiter nos données.
Mettre les bibliothécaires sur le Web sémantique, c’est dans une certaine mesure accepter de lâcher prise sur les données bibliographiques.

Le mapping ultime

Dans ce communiqué de presse, est annoncée la naissance d’une initiative ambitieuse : Vocabulary mapping framework.
Il s’agit d’une extension des travaux de rapprochement entre les RDA et ONIX, visant à rendre intéropérables les principaux standards de métadonnées descriptives : Dublin Core, Onix, RDA, MARC21, DOI, FRBR, LOM, etc.
La méthode proposée : réaliser un mapping universel permettant de créer des passerelles (crosswalks) entre ces vocabulaires afin de faciliter les transformations d’un format à un autre. Les mappings seront exprimés en RDF/OWL. Ce résultat est attendu pour le 9 novembre 2009, où il sera formellement présenté lors d’une conférence à la British Library.
Les étapes suivantes envisagées sont la génération automatique de mappings entre n’importe quelle paire de formats, et l’existence d’un site qui permettra de maintenir et de faire évoluer les conversions.
Derrière le projet, on trouve le DOI, la British Library et le JISC (entre autres).

Mon avis personnel : le projet n’est pas seulement ambitieux, mais un petit peu délirant. J’ai beau croire fort dans les technologies du Web sémantique, pas sûr qu’elles permettront de résoudre tous les problèmes de mappings en 6 mois.
Et puis :
– est-ce que cela a vraiment un sens de faire un mapping absolu, indépendamment de la nature et de la spécificité des données et de la façon dont chaque format est implémenté ?
– n’y a-t-il pas un peu à boire et à manger dans la liste de métadonnées ci-dessus (des formats, des modèles conceptuels, des vocabulaires, des systèmes, etc…)
– enfin quel est l’intérêt du DOI (et de l’IDF, International DOI Foundation) pour soutenir un tel projet : le revendre ? vendre les résultats ? vendre le service ? rendre plus de gens dépendants du DOI ? mettre le DOI au centre du monde (ce petit monde qu’est le milieu de l’informatique documentaire) ?

A suivre de très près.

Les catalogues sur le Web

Hier j’étais à Médial à Nancy pour une Journée d’études sur les catalogues nouvelle génération ».

Je ne sais pas si ce diaporama apportera quoi que ce soit sans les explications qui vont avec, mais en tout cas j’avais envie de le partager, ainsi que le plaisir que j’ai eu à faire cette présentation devant un public intéressé, attentif et indulgent.
J’en profite aussi pour remercier Françoise L. pour les quelques diapos que je lui ai empruntées et surtout pour ce qu’elle m’a apporté par ses réflexions.

La notion de document dans le Web sémantique

Ce billet est petite pierre à ajouter à la série de Got :
– les carcans de la pensée documentaire (1) et (2)
l’antilope sur le Web
Que vous trouverez brillamment résumés chez Hubert.

Dans le Web sémantique, on décrit le monde sous forme de triplets sujet – prédicat – objet. Chaque triplet est indépendant : ce qui veut dire qu’il doit pouvoir être compris sans avoir besoin de contexte, ou du moins, d’autre contexte que la connaissance des entités qui sont représentées par les URI.
Plus j’avance dans ma connaissance du Web sémantique, plus je suis persuadée que les identifiants – les URI – sont la clef de tout. Une fois qu’on a conçu correctement ses URI, tout le reste coule de source.

URI abstraites, URI concrètes
Quand j’ai commencé à travailler sur les identifiants ARK, nous avons introduit dans la notion d’identifiant une différence entre ressource abstraite et concrète.
Une ressource que nous considérions comme abstraite, intellectuelle, par exemple un document numérique comme celui-là, était potentiellement mouvante : bien que son contenu soit toujours le même, sa présentation, sa forme, et les fonctionnalités associées pouvaient changer.
Au contraire, une ressource concrète correspondant à ce document dans un certain format (mode texte ou mode image, tiff ou jpeg…), dans une certaine qualité (par exemple haute et basse résolution), ou dans un certain contexte de visualisation (en pleine page, avec sa table des matières, sous forme de vignettes…) était définie comme stable.
Dès le départ, nous avons donc défini que chaque objet numérique aurait une URI abstraite, en l’occurrence ark:/12148/bpt6k28585w, et plusieurs URI concrètes permettant d’appeler ses formats, résolutions, contextes etc. Par exemple : http://gallica.bnf.fr/ark:/12148/bpt6k28585w.texte pour le visualiser en mode texte dans Gallica, ou http://catalogue.bnf.fr/ark:/12148/bpt6k28585w/f46 pour visualiser la 46e image dans le contexte du catalogue.

Ce choix (qui n’avait rien à voir avec le Web sémantique à l’époque) m’a bien aidée à comprendre ensuite certaines notions liées à l’utilisation des URI dans le Web sémantique, qui est décrite dans la note du W3C « URIs sympas pour le Web sémantique » (déjà évoqué succinctement ici).

Dans Gallica, l’URI abstraite ne correspond à rien d’autre qu’à une page Web qui est la représentation que nous avons décidé de donner, à un instant T, de ce document dans Gallica. Si je ne vous avais pas dit qu’il y avait une URI abstraite, vous n’auriez aucun moyen de le savoir.
Dans le Web sémantique, au contraire, on utilise effectivement l’URI abstraite d’une ressource pour effectuer un certain nombre d’assertions sur cette ressource : les fameux triplets.

La matérialisation des triplets
Évidemment, ces triplets sont comme tout en ce monde : ils ont une matérialisation. C’est-à-dire que si on veut en faire quelque chose, il va falloir les faire passer du monde de la pensée abstraite au monde physique, et pour cela les exprimer d’abord en terme de modèle (je choisis comment je formule ma phrase, ou mon triplet), puis les manifester en termes de support (j’inscris ma phrase ou mon triplet sur un support, fut-il numérique). J’emploie à dessein les termes d’exprimer et manifester, je suis sûre qu’il y en a qui me suivent ;-)
Pour des raisons de commodité évidente, on n’exprime pas chaque triplet sur un support indépendant du triplet voisin. On les regroupe dans des … documents (ou dans dans une base de données, mais vous noterez que Got assimile, très justement à mon avis, l’enregistrement dans une base de données qu’est une notice bibliographique à un document). Cela permet d’alléger un peu la syntaxe (RDF étant quand même pas mal verbeux) en ne répétant pas tout le temps l’URI dont on parle, et de regrouper dans un même support, comme un fichier RDF/XML, un ensemble de triples qui concernent la même ressource (par exemple).

Ce qu’il est important de comprendre, c’est que ce regroupement des triplets dans un document est, en principe, non signifiant : on peut, en théorie, choisir de manière libre et arbitraire quels triplets on regroupe dans un fichier, et quels triplets on met ailleurs. Je dis bien en théorie, car en pratique, et c’est là que je rejoins JMS dans son dernier commentaire, l’inscription des données dans un document n’est pas juste un hasard. Elle correspond généralement à une formalisation suivant un protocole défini et qui permet aux gens (les machines, elles, s’en foutent) de reconnaître la structure de l’information qui leur est proposée et d’en faciliter la manipulation.

Mais je m’éloigne de mon propos.

La fixation des triplets dans un document n’est qu’une des représentations possibles de l’information qu’ils contiennent, et c’est ça qui est intéressant dans le Web sémantique. Pour une même ressource abstraite, je vais pouvoir proposer différentes représentations, qui varieront suivant la forme (je peux décrire une seule ressource dans un fichier, ou plusieurs), la qualité (je peux retenir 10 triplets concernant cette ressource ou en retenir 100) ou encore le contexte (choisir certains triplets plutôt que d’autres) que je souhaite donner à mon information.
A cette étape là on définit ce qu’on appelle le « generic document » ; qui équivaut à la manifestation des triples qu’on a choisis sur un support et qui a lui-même une URI, différente de celle de l’entité abstraite.

Le Web de données et ses documents
Le travail sur le <a href="http://linkeddata.orglinked data a été à l’origine de réflexions importantes concernant la représentation des données en RDF sous forme de documents. L’objectif du linked data étant de rendre des données disponibles sur le Web, il a paru rapidement utile de pouvoir les fournir sous forme de données (pour les machines) mais aussi sous forme de pages Web, c’est à dire de documents (pour les humains).

C’est là qu’entre en scène le mécanisme de négociation de contenu, qui est décrit justement dans la note en question du W3C. La négociation de contenu sert à gérer le passage de l’URI abstraite au document. En gros (je caricature), on envoie à un serveur une URI abstraite, il en déduit l’URI du generic document, puis il regarde si vous êtes un humain ou une machine avant de vous renvoyer soit une page Web, soit un ficher RDF.
Ce dernier niveau, le niveau technique, visible, pratique, c’est ce qu’on appelle le « Web document » ; qui correspond à une formalisation précise du « generic document », une représentation dans un format particulier.

Le Web de données vu comme une publication
Là je vais tordre un peu le cou à nos concepts bibliothéconomiques habituels, mais imaginons que nous essayions de qualifier le Web de données comme une publication, ou un ensemble de publications.

En terme de modèle documentaire, si je prends une idée (une œuvre par exemple) et que je la mets en RDF, son expression est à la fois atomisée (sous forme de triplets) et illimitée (de par les liens avec d’autres triplets). Le nombre de manifestations, ou documents, que je peux en tirer est potentiellement infini. Et il peut y avoir plusieurs items ou documents techniques qui représentent chaque manifestation de façon appropriée au mode technique d’accès.

Ainsi, même dans le Web sémantique, tout n’est pas de la donnée. Il y a forcément du document quelque part, et même s’il faut réussir à l’ignorer pour sortir du « carcan de la pensée documentaire », je trouve qu’il est excessif de nier son existence. Pour des gens comme nous qui sommes habitués à manipuler des concepts documentaires, cette négation est même contre-productive. Les documents existent, on peut les voir dans l’espace du Web, et en tant que bibliothécaires il nous sera nécessaire de les identifier et les qualifier pour pouvoir nous approprier le Web sémantique.