Introduction à MPEG21 (1e partie)

L’adepte de METS que je suis (et je fais sans arrêt des émules) a enfin décidé, par honnêteté intellectuelle, de s’intéresser un peu aux autres formats qui remplissent la même fonction, à savoir décrire tous les aspects d’un objet numérique complexe. J’ai donc commencé à regarder MPEG21 DIDL. Je débute, alors si vous avez des précisions, des corrections ou des remarques, n’hésitez pas.

Avant de s’intéresser à MPEG21 DIDL, un petit aperçu de ce qu’est MPEG21 ne peut pas faire de mal. Alors allons-y, en avant, vers l’infini et au-delà !

MPEG21 est un cadre (framework) de représentation des objets numériques basé sur un ensemble de modules indépendants. Normalisé par l’ISO sous le charmant petit nom de ISO/IEC 21000, ce cadre comprend à l’heure actuelle les parties suivantes :

  • 1 – Vision, Technologies and Strategy
  • 2 – Digital Item Declaration (oui, oui, c’est celui-là qui nous intéresse)
  • 3 – Digital Item Identification (oh ! des identifiants !)
  • 5 – Rights Expression Language (oh ! des droits !)
  • 6 – Rights Data Dictionary (oh ! encore des droits !)
  • 7 – Digital Item adaptation
  • 8 – Reference software
  • 9 – File format
  • 10 – Digital Object processing
  • 11 – Evaluation Tools for Persistent Association Technologies (Technical Report)
  • 12 – Test Bed for MPEG-21 Resource Delivery (Technical Report)
  • 15 – Event Reporting
  • 16 – Binary Format

Non, je ne yoyote pas complètement, j’ai sauté des numéros mais c’est exprès. Sont en cours d’élaboration :

  • 4 – Intellectual Property Management and Protection Components
  • 14 – Conformance Testing

La partie 13 (scalable video coding) semble avoir été abandonnée.

Certaines de ces parties sont publiques et on peut les télécharger sur le site de l’ISO. Ce sont les parties 1 et 2 (ça tombe bien, la notre est dedans). Les autres peuvent être acquises auprès de l’ISO pour une modique somme comprise généralement entre 50 et 150 euros par partie, et c’est pourquoi je n’en parlerai pas dans le détail.

Toutefois, si on regarde rapidement tous ces morceaux, en particulier tels qu’ils sont décrits dans la Partie 1 (« vision etc. »), on peut quand même faire quelques observations dans les grandes lignes :

  • MPEG21 a pour objectif de donner le cadre d’un bon niveau d’interopérabilité dans la diffusion de documents multimédias. Ca inclut même une réflexion sur les types de terminaux (PC, mobile etc.), sur la différence entre une bande-annonce et un film en haute résolution… ça va assez loin.
  • logiquement, suite au point précédent, MPEG21 s’intéresse beaucoup aux droits : déclaration de droits, référentiel de droits… Malheureusement, la partie qui serait la plus intéressante, la normalisation de la gestion des droits elle-même, des DRM si vous voulez, n’est pas finie;
  • MPEG21 s’intéresse aussi pas mal aux questions techniques, avec une partie sur les logiciels de référence et une sur les formats de fichier ; au-delà des besoins immédiats (faire fonctionner correctement des formats complexes sur des plateformes appropriées), on devine qu’en terme de gestion conforme à l’OAIS sur le long terme, cela pourrait être intéressant.

La notion de Digital Item est au centre de la norme ; il s’agit de définir l’élément qui doit être géré, manipulé, décrit, échangé, etc au sein de tout système où des gens (users) entrent en interaction avec des objets numériques. Le Digital Item est donc un niveau de granularité préférentiel.
En pratique, un Digital Item se compose de trois ingrédients :

  • des ressources (c’est-à-dire, des fichiers numériques)
  • des métadonnées
  • une structure.

C’est pour décrire toutes ces choses de manière formelle qu’on a créé le DID et le DIDL. La Déclaration d’Objet Numérique (DID) est une description d’un objet à travers ces trois composantes. Elle est représentée sous la forme d’un fichier XML, grâce à DIDL. Ce qui confirme une intuition que j’avais au départ : tout cela n’a rien à voir avec les souris !

A suivre

Source : MPEG21 part 1 (fichier PDF zippé).

Introduction à MPEG21 : DIDL, en gros (2e partie)

Après avoir étudié la place de DIDL dans MPEG21, nous allons pouvoir nous intéresser à la partie 2 de MPEG21 : la Déclaration d’objet numérique (DID).

Cette déclaration se compose de trois parties :

  • le modèle (DID, en conceptuel)
  • la représentation (DIDL, expliqué de façon pratique, élément par élément)
  • le schéma (le schéma XML de DIDL lui-même).

Avant d’entrer dans le détail, je voudrais énoncer quelques caractéristiques de MPEG21 DIDL (par rapport à METS – pour un update rapide sur METS voir et ):

  • Il dispose d’un modèle de données abstrait. Ca veut dire qu’ils ont modélisé avant d’implémenter, ce qui est plutôt rassurant à priori. Ca veut aussi dire qu’il sera plus facile de changer la méthode de représentation du modèle si nécessaire (par exemple pour passer de XML à RDF). Pour l’instant, le modèle abstrait s’exprime sous la forme d’un schéma XML ; c’est ce schéma qui s’appelle DIDL.
  • Il ne propose pas une carte de structure pour décrire un objet, la structure est inhérente au fichier de métadonnées. En fait, le modèle décrit 4 niveaux : container – item – component – resource, et à chacun on peut associer des métadonnées (descriptor). Ces niveaux peuvent tous être combinés et imbriqués. La façon dont on imbrique ces niveaux correspond à la carte de structure.
  • Il met l’accent sur des machins qui sont particulièrement utiles dans le domaine de l’industrie multimedia (pour laquelle il a été conçu) : la gestion des droits et l’association d’exécutables. Pour cela, il peut utiliser d’autres modules définis dans MPEG21, comme REL.
  • Il définit un système d’identifiants complexe, qui est lui-même un module de MPEG21 nommé DII. Ces identifiants permettent notamment de faire des liens entre les métadonnées et les entités d’une instance DIDL, mais pas seulement. Alors que dans METS, l’identification des différentes parties est souple bien qu’obligatoire, ici elle est plus précisément définie. Ce mécanisme est explicitement destiné à reexploiter les identifiants de l’industrie de l’audiovisuel (ISRC, ISMN pour ceux à qui ça parle).

Quand même, quelques points communs avec METS :

  • On peut mettre les ressources dans DIDL « par valeur » ou « par référence », c’est à dire soit directement dans les métadonnées en XML ou en base 64, soit sous forme d’un lien vers un objet qui est stocké ailleurs.
  • Les métadonnées ça ne se fait pas tout seul ; il faut compléter le modèle avec des schémas de métadonnées spécifiques. Ceux qui existent sous forme de modules de MPEG21 sont prévus. Ceux qu’on voudrait ajouter en plus, on peut le faire en utilisant les espaces de nom.

Dans le monde des bibliothèques numériques, les principaux adeptes de MPEG21 DIDL sont Herbert Van de Sompel et ses amis du LANL. Ils se sont amusés à le rendre OAIS compliant et pour cela, ils ont un peu plié le modèle… en particulier pour la partie qui concerne l’association d’exécutables.
Ils ont notamment rajouté un moyen d’exprimer des relations en RDF dans les métadonnées descriptor, de façon à ce qu’on sache précisément ce qui est une partie de quoi (isPartOf) ou encore ce qui décrit quoi (isMetadataOf).

Voilà pour DIDL en gros. Si vous vouliez juste une vue d’ensemble, cela devrait suffire ; si vous voulez en savoir plus, je vous propose de continuer avec moi et étudier DIDL en détail, dans un autre billet.

Mes principales sources pour ce billet :

Quelques trucs

My Library Manual : un guide pour gérer des collections numériques avec le logiciel MyLibrary. La permière partie est assez largement applicable au-delà de ce seul logiciel.

Un arbre de décision pour décider quelles collections doivent entrer dans un entrepôt de préservation. Le système de l’arbre est marrant.

Oxford Journals signe avec Portico, le système d’archivage de Jstor. Auquel adhère aussi Elezvier.

Gérer les risques de votre institutionnal reposritory : cela devrait être la première étape du projet. Beaucoup plus conceptuel qu’il n’y paraît. Je vous raconterai, un jour. Ceci dit, celui-ci me paraît un peu optimiste, pour le coup.

Dossier sur les métadonnées sur bibliodoc. Il y est aussi question d’identifiants.

Allez au Salon du livre !

Le Salon du livre est cette année très recommandable, surtout si vous vous intéressez à la numérisation. Vous pourrez notamment y voir en action deux des fameux numériseurs qui ne nécessitent pas d’opérateur humain (ki disent).

Photo 1 : la figue à l’honneur au Salon du livre.

Photo 2 : le numériseur de Kirtas, qu’on peut voir fonctionner, ainsi que celui (moins convaincant) de I2S.

Photo 3 : Google est toujours présent au Salon du Livre, au même endroit, mais un peu plus ouvert que l’année dernière.

Photo 4 : le dodo du Salon aussi est toujours là.

Vous pourrez aussi acheter le dernier Dominique Sylvain sur le stand de Viviane Hamy, et le dernier Michel Melot (avec des très belles photos de Nicolas Taffin) sur le stand des éditeurs d’Ile-de-France. Donc allez-y, plus qu’une journée et demie.

Image associée au billet

Image associée au billet

Image associée au billet

Boîte à idées

Vous vous souvenez de l’appel à idées lancé par la Commission Européenne sur les bibliothèques numériques ?

Toutes les réponses qui ont été envoyées ont été publiées sur le site I2010. Un sacré gros beau tas de choses à lire, dans toutes les langues, de toutes les longueurs, et avec une infinie palette de nuances.

Mais les ont-ils vraiment lues avant de les publier ? Parce que, à votre avis, qu’est-ce que ça apporte au débat ?

Mise à jour :

Annonce officielle et suites ici.

Conserves

Il y a une nouvelle liste de discussion gérée par le JISC sur le thème des entrepôts de données numériques.

Il y a un nouveau site propulsé par la Bibliothèque nationale des Pays-Bas (KB) pour réfléchir sur l’accès à très long terme aux documents scientifiques sous forme électronique.

Il y a Lorcan Dempsey qui partage ses réflexions sur le problème de la conservation pour les bibliothèques numériques.

C’est intéressant… mais je suis un peu occupée par autre chose.

Ici et ailleurs

Je vous propose une petite promenade internationale sur le thème de la préservation du document numérique, ici et ailleurs.

Ici, c’est aux Archives de France dont la directrice a donné une interview sur ce sujet. Plus que les propos de Madame la DAF, ce sont les questions posées qui m’interpellent :

Depuis quelques années, le nombre des sites Internet, de blogs, de forums est en croissance exponentielle. Ces données numériques fonctionnent comme révélateurs d‘une époque, d’un mode de vie, d’une société. Comment conserver cette mémoire numérique ? Comment trier, conserver et transmettre aux générations futures cette colossale masse d’information ?

Je crois qu’il n’est pas clair pour tout le monde qu’écrire un blog, c’est faire acte de publication, avec tout ce que ça implique. Traditionnellement, les Archives conservent des documents produits au cours d’une activité (généralement administrative), je vous renvoie à la Loi sur les archives pour ça. Les publications (dont les blogs) relèvent pour leur part du Dépôt Légal, donc de la future loi DADVSI.

Ici toujours, la Gazette du Cines s’intéresse aussi à l’archivage pérenne des documents numériques.

Ailleurs, maintenant.
Pas très loin, en Belgique, on apprend que l’Université Catholique de Louvain va utiliser VITAL (de VTLS) pour gérer son "digital repository". C’est peut-être une des premières percées de nos éternels fournisseurs de SIGB sur le marché de la préservation numérique (quelqu’un a des infos sur des expériences antérieures dans ce domaine, ou avec d’autres fournisseurs de SIGB ?) VITAL est basé sur le système open source Fedora.
En Espagne, on peut lire ce billet où il est question, également, de patrimoine numérique, de dépôt légal, et du rôle des bibliothèques.

Et maintenant, un peu de lecture…
A consulter, cette bibliographie (pdf) sur la préservation du document numérique.
A lire, ce rapport des archives nationales de Grande Bretagne : Your Data At Risk: Why you should be worried about preserving(pdf, 15p.).
A re-lire, ce rapport daté d’août 2003, par la NSF et la LOC, intitulé It’s about time (pdf, 52 p.), qui faisait le point sur les enjeux de la recherche et des actions à mener dans le domaine du numérique.
A dépouiller, les communications de la conférence PV2005 sur le même thème.
A dénicher tant bien que mal, un livre sur les "institutional repositories" paru ou à paraître en janvier 2006, en espérant qu’une de nos bibliothèques françaises (hum, parisienne si possible, merci) ait la bonne idée de l’acheter.
A saluer, la naissance de nouveaux blogs tournés vers la conservation et l’archivage, numériques ou non :

  • Sous la poussière : peut-être le premier blog d’archiviste en France (euh en Suisse) (quelqu’un a des infos sur les blogs d’archivistes francophones sinon ?)
  • IST-677 : un blog pédagogique sur la préservation du document numérique, piloté par Digitization 101 ce qui assure des contenus de qualité.

Merci à Culture et Tic, Blogokat, FRBR, Deakialli, ResourceShelf, 10kyBlog, Digital Curation News, et Lorcan Dempsey.

DRM et bibliothécaires

On a beaucoup parlé des DRM, ici et ailleurs, surtout pour en dire qu’ils étaient mauvais. La question à se poser est peut-être de savoir s’ils sont forcément mauvais, ou ce qu’on pourrait faire pour qu’ils le soient moins.

Cet article donne un début de réponse : un bon DRM devrait

  • éviter de violer l’ordinateur sur lequel il s’installe,
  • expirer quand l’oeuvre tombe dans le domaine public,
  • faire une différence entre protéger une oeuvre et protéger une manifestation (au sens FRBR du terme)
  • ne pas être plus restrictif que dans le monde analogique
  • il ne devrait pas être illégal de les contourner (on peut avoir plein de bonnes raisons pour faire ça)
  • permettre l’accès aux personnes handicapées
  • déposer ses spécifications dans une bibliothèque pour permettre les futures migrations et émulations.

On est encore loin du compte.

La première chose à faire, en tant que bibliothécaires, c’est de ne pas rejeter en bloc les DRM mais de chercher à comprendre comment ils marchent, les problèmes qu’ils posent et ce qu’on peut y faire. C’est ce que nous aide à faire ce gros rapport (pdf, 44p.) : Digital rights management, a guide for librarians par Michael Godwin publié sur le site de l’ALA. Il y est question des maux des DRM pour les bibliothécaires, mais aussi des procédés techniques, du cryptage au watermarking en passant par les enjeux du P2P. Incontournable.

Coins coins

Allez, ce soir je parle des petits canards.
Nan, sérieux.
Ce soir, je parle des Context Objects in Span (COinS).

Ces choses consistent à mettre dans des pages HTML des liens encodés suivant la norme OpenURL. A quoi ça sert, me direz-vous ? Bon, je vais faire un exemple.

Imaginons que j’aie lu un bouquin nommé Dawle Duckling de Toni Buzzeo et Margaret Spengler et que je veuille en parler sur mon blog. Pour compléter mon billet et faire une référence complète, et interprétable par des machines, le mieux est d’encoder un lien openURL que les gens pourrons brancher sur un outil de leur choix pour en faire un lien utile à leurs yeux.

Le mode d’emploi est le suivant :

  • Je vais sur le générateur de Coins et je remplis les métadonnées dans le formulaire.
  • ledit générateur transforme automatiquement les infos en un bout de code contenant un lien Coin OpenURL, que je colle dans mon blog.
  • comme il est sympa, Coin me donne aussi à titre d’exemple le lien Amazon
  • vous allez sur le site des extensions de Coin et vous récupérez le bookmarklet "Find in a library"
  • vous allez sur mon blog et cliquez sur le bookmarklet pour transformer le Coin en lien « Find in a library »
  • vous cliquez sur le lien et tombez sur la notice dans OpenWorldCat.

Voilà, maintenant si vous êtes un peu geek, vous développez un bookmarklet pour le résolveur OpenURL de votre bibliothèque, et ça vous permet de rechercher les références quand vous tombez sur un Coin.

Des infos chez Lorcan Dempsey et des applications chez David Bigwood

Et un petit exemple de Coin coin-coin :


Dawdle Duckling