Suite au projet Chronicling America dont j’avais parlé tantôt, la Library of Congress a publié dans Dlib un article intitulé : Actualized Preservation Threats. Practical Lessons from Chronicling America tout à fait hallucinant. Cet article est en effet un don à la communauté des dévelopeurs de bibliothèques numériques : il énumère tous les ratés, bugs et autres erreurs humaines survenus pendant la mise en place de l’archivage des fichiers numériques.
Il s’agissait principalement de produire, en plus de la numérisation image et OCR, des fichiers au format METS, et de faire entrer le tout dans un entrepôt numérique sous Fedora.
Des plantages de disques durs, ça peut arriver à tout le monde. Des fichiers METS qui ont été validés mais contiennent encore des erreurs : que celui qui n’a jamais fait de XML leur jette la première balise. Par la suite ça devient plus croustillant : l’outil qui devait transformer les SIP en AIP (si vous ne me suivez plus, relisez votre OAIS), donc leur outil d’archivage, mettait un furieux désordre dans les balises et rendait les fichiers XML non valides. Mais le meilleur, c’est quand l’auteur de l’article confesse qu’il a lui-même supprimé pas mal de données sans le faire exprès à cause d’une fausse manipulation.
Avoir des petits problèmes de ce genre, ça arrive à tout le monde, mais faire un article rien que là-dessus dans une revue comme Dlib, il fallait oser : on leur dit merci, et que la force des bibliothèques numériques soit avec eux pour la suite.