Répertoires de formats

J’ai déjà eu l’occasion de vous parler des répertoires de formats et de leur utilité pour la préservation du document numérique ici ou . Comme j’ai eu la chance depuis de me pencher de plus près sur ce problème, je vous livre quelques idées et liens utiles.

Alors d’abord, pourquoi un répertoire de formats ? La question peut être abordée de plusieurs points de vue :

  • la sélection : j’ai un contenu, dans quel format le représenter ?
  • l’identification : j’ai un objet numérique, dans quel format est-il ?
  • la validation : j’ai un objet numérique censé être au format X, est-ce exact ?
  • la caractérisation : j’ai un objet au format X, quelles sont ses propriétés ?
  • l’évaluation : J’ai un objet au format X avec des propriétés Y, quel est le risque d’obsolescence ?
  • le traitement : j’ai un objet au format X avec des propriétés Y, comment réaliser l’opération Z sur ce format ?

Répondre à toutes ces questions revient à parcourir les différentes étapes qui vont nous conduire de la création du document numérique à sa préservation sur le long terme, en passant par l’étape essentielle qu’est l’injection dans une archive OAIS. Parce que dans cette archive on a besoin de savoir la nature de ce qui est conservé, et parce qu’on a besoin de créer des programmes capables d’émuler ou de migrer ce contenu, avoir un référentiel qui contient les moyens d’identifier ces formats et leurs spécifications est indispensable.

Cette prise de conscience n’est pas nouvelle dans le monde du numérique, et il existe aujourd’hui différentes initiatives qui visent au moins en partie à atteindre cet objectif.

D’abord il y a des choses qui existent depuis un bout de temps et n’ont pas un objectif de conservation : par exemple le répertoire des MIME TYPE de l’IANA, celui du département de la justice américain (à vendre sur CD-Rom), ou le Wotsit des programmeurs. Aucun de ces répertoires ne répond au besoin spécifique de conservation, parce qu’il manque des données essentielles et notamment les signatures, internes ou externes, qui permettent d’identifier (automatiquement de préférence) le format auquel on a affaire.

A l’opposé, on trouve des initiatives dont l’objectif est exclusivement l’évaluation en vue de la conservation, et qui mettent donc l’accent sur la méthodologie d’évaluation des risques d’obsolescence des formats. Parmi ceux-ci, je citerai deux initiatives : l’Inform Metodology d’OCLC et le travail de la Library of Congress sur les formats.
La première est au sens strict une méthologie de gestion des risques. Je pense qu’elle a plus ou moins été appliquée par la NLA qui n’a hélas pas encore publié les résultats de son travail.
La seconde est une méthodologie de projet de numérisation, qui inclut le problème de la sélection d’un format quand on numérise. L’approche est assez complète mais il manque le principe de la validation automatique du format, c’est à dire l’utilisation de logiciels qui vérifient la conformité du format et de ses propriétés par rapport aux attentes de l’archive. C’est donc une approche bibliothéconomique assez classique. Par contre, la méthode d’évaluation en vue de la préservation est intéressante.

Et puis pour finir je parlerai des répertoires de formats qui ont pour but l’identification et la validation des formats, tout en étant neutres et objectifs (pas d’évaluation donc), ce qui augmente les chances de recevoir des descriptions de formats propriétaires de la part de leurs producteurs. L’un d’eux, dont j’ai déjà parlé, est Pronom avec son outil DROID. En apparence, on a là celui qui va le plus loin dans l’accomplissement de l’objectif cité, puisqu’il est le seul à mettre au point un répertoire de formats avec l’outil qui va avec pour les identifier automatiquement. Dans les faits, il est encore assez peu rempli.

Le dernier dont je parlerai ici, GDFR , mérite un coup de chapeau car il vient d’obtenir 2 ans de financement de la part de la Mellon foundation. Propulsé par les gens de la bibliothèque universitaire d’Harvard, GDFR a pour objectif de constituer un répertoire de formats neutre, global, international, complet, etc. Il s’est doté d’un modèle de données qu’on peut voir à l’oeuvre dans l’expérimentation FRED, c’est -à-dire qu’il s’est doté de règles qui définissent le contenu de la description d’un format, incluant un identifiant pérenne ce qui est très utile pour toutes sortes d’applications. Pas loin de GDFR, on trouve aussi un outil de validation automatisée : JHOVE qui contrairement à DROID, ne fonctionne pas en attanquant directement un répertoire de formats, mais grâce à des plug-ins qui contiennent les infos nécessaires. En cela JHOVE est une sorte d’outil inachevé, et on peut espérer qu’avec le développement de GDFR il deviendra plus complet. Lire cet article intéressant sur GDFR.

Monsieur Stephen Abrams, de Harvard, est personnellement une mine d’informations que je remercie pour son défrichage intense du sujet (en espérant qu’il pardonnera mes récupérations parfois littérales de ses idées). Il était à Gottingen pour iPRES et vous pouvez lire, écouter et même regarder son intervention ici. Merci aussi à Julien dont j’ai récupéré l’historique.

Lien vers la version officielle.