Les données bibliographiques sur le Web

Martha Yee nous a proposé dernièrement une intéressante réflexion : Can bibliographic data be put directly onto the semantic Web ?
Dans cet article, elle relate une expérimentation qu’elle a réalisée sur la FRBRisation et RDFisation de données bibliographiques, et qui débouche sur une liste de 13 questions qu’elle se pose sur l’utilisation de RDF pour exprimer des données bibliographiques.
Son article est intéressant même si à mon avis il part parfois sur des malentendus (par exemple, l’idée que RDF a été conçu pour l’intelligence artificielle ou encore la nécessité de « réguler » l’attribution des URI au niveau global). Toutefois beaucoup des questions qu’elle se pose me semblent plutôt relever de la modélisation de nos données en tant que telle (et de faiblesses dans le modèle FRBR et autres) plutôt que de l’utilisation de RDF.
De même, à différentes reprises, les problématiques liées à la modélisation sont mêlées avec celles qui relèvent plutôt des applications qui vont utiliser les données, ce qui ne simplifie pas la lecture de l’article.

On retrouve ces considérations chez Karen Coyle, qui a rédigé une série de réponses extrêmement pertinentes sur son blog :
– introduction
– réponse aux questions : 1 et 2,
– réponse aux questions : 3, 4 et 5,
– réponse aux questions : 6, 7 et 8,
– réponse aux questions : 9, 10 et 11,
– et enfin réponse aux questions : 12 et 13.
Je conseillerais pratiquement de lire ces réponses plutôt que (ou au moins, en même temps que) l’article original. Elles contribuent à clarifier extrêmement les choses et soulèvent plein de défis passionnants sur ce qu’il faudra remettre en cause dans nos pratiques à l’heure de passer les formats MARC en RDF.

Je complèterais cette série de lectures par un billet d’Eric Hellman sur son très excellent blog, dans lequel il demande malicieusement : Can librarians be put directly onto the semantic web ?
Le problème ne réside en effet pas uniquement dans les données, mais aussi dans le fait que les bibliothécaires vont devoir changer de paradigme. Je le cite (et le traduis) :

Alors que les métadonnées des bibliothèques ont traditionnellement été conçues pour pour aider des humains à trouver et utiliser l’information, les technologies du Web sémantique sont conçues pour aider des machines à trouver et utiliser l’information. Les métadonnées étaient destinées à être vues et exploitées par des humains, ce qui a été à l’origine d’une relation plutôt inconfortable avec les bases de données relationnelles. Les ontologies du Web sémantique, au contraire, sont faites pour rendre les métadonnées compréhensibles et exploitables pour les machines. Une ontologie est déjà une sorte de programme informatique, et concevoir un schéma RDF est la première étape pour indiquer à un ordinateur comment traiter un certain type d’information.

Et d’assimiler le travail de Martha à celui d’un programmeur, parce que dans sa démarche de modélisation, elle imagine les comportements de la machine vis-à-vis des données.

Pour aller encore au-delà (et faire plaisir à mon geek préféré qui va faire des bonds sur sa chaise en lisant tout ça), je dirais que dans un monde idéal, le Web sémantique devrait nous permettre de nous abstraire de la façon dont les humains et les machines vont utiliser les données. Si le modèle est fait correctement, il devrait permettre à d’autres d’inventer de nouvelles façons, non-bibliothéconomiques, de traiter nos données.
Mettre les bibliothécaires sur le Web sémantique, c’est dans une certaine mesure accepter de lâcher prise sur les données bibliographiques.

Figoblog

Un blog sur Internet, la bibliothéconomie et la confiture de figues

Les données bibliographiques sur le Web