Dis-moi ton format, je te dirai comment durer

Le dernier n° de RLG Diginews est quasiment entièrement consacré à la préservation du numérique.

On y trouve notamment un retour d’expérience très intéressant concernant le sauvetage des "vieilles" données numériques détenues par les chercheurs de Cornell. Le "File Format and Media Migration Pilot Service" est un service de sauvetage à la demande de données numériques, qui a tourné pendant deux ans. Les individus apportaient leurs données (sur les supports qu’ils avaient) et l’équipe se chargeait de les faire migrer.
Une des conclusions intéressantes de l’étude est que finalement, les supports (disquettes, cartouches etc.) étaient en bon état, mais ce qui manquait le plus cruellement, c’était la documentation des plateformes et des logiciels qui avaient servi à créer les données.
A noter également, plus on attend, plus c’est difficile de récupérer les données.
Enfin, une conclusion vraiment surprenante : on ne peut pas faire confiance aux individus pour archiver leurs données, il vaut mieux les déposer dans un institutional repository. Incroyable, non !

Toujours dans la même revue, et toujours en provenance de Cornell, on trouve ensuite une évaluation de 5 outils de migrations de formats et d’extraction de métadonnées :

  • le Digital Asset Preservation Tool d’IBM (open source), une sorte d’outil d’émulation
  • le LuraDocument PDF Compressor Desktop v.4 (qui génère du PDF/A)
  • le TOM (Typed Object Model) Conversion Service, un outil de migration en Java qui dispose d’une version test en ligne
  • le National Library of New Zealand (NLNZ) Metadata Extraction Tool, un outil open source en java qui analyse les formats et extrait les métadonnées
  • et enfin, un autre analyseur de format : TrID File Identifier.

Une réflexion sur “Dis-moi ton format, je te dirai comment durer

  1. Tiens, c’est marrant, je lisais au sujet proche hier. Un article de Donald Knuth de 1986 (Remarks to Celebrate the Publication of Computers & Typesetting).

    Knuth expose les deux buts qu’ils se sont fixés pour le projet TeX. Le premier est d’obtenir la meilleure qualité, le second de pouvoir écrire un système que l’on pourrait toujours utilisé dans cent ans.

    Ce qui est fou c’est que d’une certaine manière il a réussi son pari. TeX reste aujourd’hui ce qu’il y a de mieux pour publier un livre imprimé avec un ordinateur (Selon l’opinion du directeur éditorial d’O’Reilly France). Depuis 1986 le code de TeX n’a pas changé, sauf pour corriger des bugs (la dernière correction date de 1990). TeX est toujours utilisé 20 ans après, le code dans le domaine publique est copié sur des millions de machines dans le monde et entièrement publié et commenté dans Computers & Typesetting (je vais avoir les cinq volumes à Noël !).

    Alors oui, par bien des aspects, TeX et METAFONT sont dépassés, mais on continue des les utiliser, et on pourrait les utiliser dans cent ans sans aucuns problèmes ! Avec l’aide bien sûr de gentils bibliothécaires qui conserveront précieusement les livres et les fichiers numériques. Toutes les clefs seront présentes pour comprendre, étudier, utiliser le logiciel.

    Knuth est vraiment un génie. Un des plus grand informaticien du XXe siècle. Notez que je ne dis pas au gens d’utiliser TeX, cela peut sembler compliqué et pas forcémment utile. Je dis juste : vous pouvez utiliser TeX, tel qu’il était il y a vingt ans, et sur une machine récente. Est-ce que beaucoup d’autres programmes, documents numériques peuvent s’en vanter ?

Les commentaires sont fermés.