VMF : et que les mappings soient

Le 9 novembre dernier, il y a presque une éternité, j’étais à Londres pour assister à la présentation des résultats du projet VMF : Vocabulary Mapping Framework.
Ils ont attendu presque aussi longtemps que moi pour mettre leurs résultats en ligne, ce qui me donne l’occasion de revenir un peu sur ce projet et ce qui en a résulté dans la première phase, qui vient donc de se terminer.

D’abord, rappelons les objectifs du projet : annoncé en juin 2009, le projet VMF se donnait pour objectif de réaliser un mapping de tous les formats de métadonnées majeurs, au moyen d’une ontologie en OWL.
Vous vous souvenez peut-être que ce projet m’avait à l’époque laissée un peu songeuse
Oui, c’est vrai, cela me semblait un objectif ambitieux (trop) et je ne voyais pas très bien où ils voulaient en venir, surtout en si peu de temps. Mais maintenant les choses me semblent plus claires et je pense arriver à comprendre ce que ce projet peut apporter. Ce n’est pas un mapping universel de tous les formats de métadonnées, mais plutôt un outil d’aide à la conception de mappings entre des formats de métadonnées deux à deux.

Dans les grandes lignes, le principe est le suivant :
– imaginons qu’on veuille faire correspondre les formats W, X, Y et Z (soit, les mappings W–X, W–Y, W–Z, X–Y, X–Z et Y–Z)
– on crée une ontologie générique, qui s’appelle la Matrice (the Matrix, fallait l’inventer ;-)
– on crée ensuite le mapping de chaque format vers la Matrice (W–Matrice, X–Matrice, Y–Matrice, Z–Matrice)
– on requête la Matrice pour qu’elle propose des équivalences entre deux formats (W–Matrice–X, W–Matrice–Y, etc.)
– on a ainsi obtenu les correspondances entre les formats souhaités en faisant 4 mappings au lieu de 6.
Ceux qui savent très bien compter auront compris que l’opération n’a d’intérêt qu’à partir du moment où on cherche à faire se correspondre plus de 3 formats, mais plus on a de formats, plus le bénéfice est important : dans l’environnement actuel, cela devrait donc être facile de rentabiliser l’opération ;-)

Pour ce faire, VMF s’appuie sur le modèle INDECS pour créer une ontologie qui est suffisamment complexe pour exprimer toutes les notions ou concepts existant dans les différents formats de métadonnées. C’est cette ontologie, exprimée en RDF, qui constitue la Matrice. Vous pouvez la télécharger en RDF sur le site du projet, par exemple pour regarder ce que cela donne dans Protégé.

L’idée est que les différents formats peuvent exprimer des notions proches, mais pas tout à fait équivalentes, et c’est ce « pas tout à fait » qui est un cauchemar pour le producteur de mappings. Un concept peut être exprimé de façon fine dans un format et détaillée dans un autre, il peut être exprimé avec une orientation différente (par ex. « est l’auteur de » et « a pour auteur » : c’est « presque » la même chose, mais « pas tout à fait ») etc. Si on veut concevoir un générateur de mappings, il faut être capable d’embrasser toutes ces nuances, pour les exprimer et clarifier les relations entre les formats.
C’est ce que fait la Matrice, au moyen d’un système de « famille de concepts ». Ce modèle est orienté événement : quand un événement apparaît dans un format de métadonnées (par exemple, l’événement correspondant à une traduction) on va créer dans la Matrice une famille de concepts qui regroupe :
– les acteurs et les objets de l’événement,
– toutes les relations possibles entre ces acteurs et objets.
Ce qui donnera par exemple :

(le traducteur) traduit (la source)
(la source) est traduite par (le traducteur)
(le traducteur) crée (la traduction)
(la traduction) est créée par (le traducteur)
(la source) a pour traduction (la traduction)
(la traduction) est une traduction de (la source)
etc.

Ensuite, les différentes familles de concepts sont articulées entre elles (par exemple, « traduction des sous-titres » serait un concept spécifique rattaché au concept plus générique de « traduction »).
Enfin, on utilisera ces différentes familles de concepts pour relier les différents formats à la Matrice, en respectant toutes les nuances et les logiques intrinsèques de chacun d’entre eux.
Pour l’instant, les gens de VMF ont travaillé à l’alignement des formats suivants avec la matrice : CIDOC CRM, DCMI, DDEX, FRAD, FRBR, IDF, LOM (IEEE), MARC21, MPEG21 RDD, ONIX et RDA, ainsi que le « RDA-ONIX Framework », ce dernier étant le point de départ du projet.

Il en résulte que la Matrice pourra rarement proposer une équivalence simple entre deux éléments de formats différents. Elle proposera plutôt un « chemin » entre ces différents éléments, c’est-à-dire qu’elle parcourra de lien en lien le graphe RDF, pour trouver le (ou les) chemin(s) le plus court d’un concept à un autre. Pour cela, il est prévu de la requêter en SPARQL (mais pour l’instant, il n’y a pas de SPARQL endpoint sur le site du projet).

Je dirais donc que VMF a produit plutôt un générateur de mappings qu’un mapping universel, ce qui semble déjà un objectif plus raisonnable… En fait, du point de vue de la modélisation, l’approche est très séduisante.
C’est une approche qui cherche à être générique sans pour autant réduire les formats à un plus petit dénominateur commun, ce qui est louable. Elle prend en compte les spécificités et la complexité de chaque format.
Pour autant, ce qui n’est pas exprimé dans la Matrice, c’est la logique intrinsèque des jeux de données eux-mêmes, qui peut varier d’une application du format à une autre. En cela, c’est probablement utile d’avoir un générateur de mapping qui propose plusieurs options pour chaque élément, et qui permette ensuite au producteur du mapping de choisir ce qui lui semble le plus pertinent par rapport à ses propres données.

Les étapes suivantes du projet, telles qu’elles ont été présentées à la journée du 9 novembre, incluent :
– la validation des mappings déjà effectués par les autorités compétentes pour chacun des formats (les mappings sont pour l’instant « expérimentaux »)
– l’ajout de nouveaux mappings
– la recherche d’un modèle économique qui permette au projet de se développer sur le long terme.

Si vous voulez plus de détails sur comment fonctionne la Matrice et la création des mappings, un seul document, celui-là (PDF, 27 pages).
Je vous recommande également le billet de Sylvie Dalbin, qui est me semble-t-il assez complémentaire avec le mien. Avec ça, vous avez tous les éléments !

Publicité

2 réactions sur “VMF : et que les mappings soient

  1. Bonjour,
    Ce serait bien pour UNIMARC de demander l’alignement à la matrice.
    savez vous à qui il faut s’adresser ?

  2. Bonjour, vous pouvez essayer de contacter directement les responsables du projet, leur contact figure sur le site.

Les commentaires sont fermés.