Pêle-mêle dans les cartons, 2

Toujours en plein déménagement, toujours dans les cartons. Voici ce que j’ai relevé d’intéressant dans mon aggrégateur ventru et débordant :

  • le 2005 special 301 report fait le point sur l’efficacité des droits de propriété intellectuelle dans 90 pays.
  • OAI une interview de la directrice d’OAIster et un témoignage sur la génération de métadonnées en Dublin Core avec un outil nommé My META Maker
  • un article dans Ariadne qui compare trois systèmes de gestion d’entrepôts de documents numériques : LOCKSS, EPrints et DSpace
  • des ressources sur la typographie et l’écriture sur le Web : ici et . J’ai bien apprécié ce site.
  • Dans le dernier Journal de l’IFLA il y a un article sur "Copyright Protection as Access Barrier for People who read differently" (p.52).

Bonne lecture et à dans quelques jours.

Longue vie aux données

Le National Science Board, un organisme américain d’expertise et de conseil dans le domaine de la science et de l’industrie, vient de publier le "brouillon" d’un rapport sur les collections de données numériques et leur préservation : Long-Lived Digital Data Collections: Enabling Research and Education in the 21st Century (PDF, 64 pages). Le document est soumis aux commentaires de la populace internationale.

Le champ de ce rapport est large, puisque sous le terme de "data" on trouve any information that can be stored in digital form, including text, numbers, images, video or movies, audio, software, algorithms, equations, animations, models, simulations. On focalise ensuite sur l’idée que ces données sont organisées, structurées en collections dans leur stockage, mais aussi dans leur production et leur consultation. Et enfin, le point clef est la nécessité de conserver ces données dans le temps, en faisant référence au modèle OAIS.

Je n’ai pour l’instant que jeté un oeil rapide à la table des matières, mais l’impression que cela donne est que l’approche disciplinaire plus ou moins orientée sur les données scientifiques devrait être intéressante pour nous, bibliothécaires. Cela permet toujours de sortir de nos concepts bibliothéconomiques, et en voyant comment ils peuvent s’appliquer dans d’autre domaines, à mieux les comprendre et les conceptualiser.

Merci à 10kyBlog.

Submergée

Eh oui, voilà ce qui arrive quand on fait des billets bidons au lieu d’être sérieux, et aussi quand on a des problèmes de connexion à répétition :-( Les choses intéressantes s’accumulent, on n’a pas le temps de les lire, et encore moins de les bloguer.

Bon, je vais essayer de résumer.

Du côté de la Library of Congress, plusieurs infos intéressantes :

  • le rapport Amega sur les applications de génération automatique de métadonnées
  • un autre travail sur l’Access level cataloguing pour les ressources en ligne (???)
  • dans le cadre du NDIIPP, leur groupement national de veille sur la préservation des documents numériques, ils ont mis en place un toolkit ou un modèle d’archivage, dont l’objectif est de fournir une métohodologie pour la mise en oeuvre de l’archivage de documents numériques.

Dans le domaine de la préservation, il y a un questionnaire qui circule, composé d’une seule et étrange question : combien de temps voudriez-vous que votre support de stockage soit capable de durer ? En gros, vos CD, est-ce que vous comptez dessus pour 20, 30, 40 ans ? Vu que le minimum c’est 20 ans, tout ceci me paraît légèrement utopique. J’aurais dit 5.

Bon et puis dernier truc, un outil vient de sortir, le TeiPublisher, qui permet de gérer des collections de documents en XML ou XHTML (pas forcément en TEI d’ailleurs apparemment). Il est basé sur le moteur Lucene et sur la base de données XML native eXist. En open-source, of course.

Pour tout ça, merci principalement à Catalogablog et à Digitization 101.

Documents en voie de disparition

J’avais l’intention de faire un billet sur la conservation des documents numériques, notamment suite à un article diffusé sur ArchiveSic qui faisait assez bien le point sur la question – mais BlogoKat a été plus rapide que moi et je l’en remercie. Donc allez lire cet article, une bonne introduction au sujet, mais attention aux fautes d’orthographe ;-)

Sur le sujet, une des ressources clef est le groupe PIN (pour "pérennisation de l’information numérique"). C’est un groupe dont l’objectif est de rassembler des gens de plusieurs secteurs d’activités qui s’intéressent à cette problématique compliquée : des institutions patrimoniales, des organismes de recherche scientifique, des entreprises… Et tous ces gens travaillent à la veille et à la dissémination de l’expertise dans ce domaine.

Tout ça pour dire qu’on trouve sur le site du groupe PIN, parmi moult ressources sur la préservation des documents numériques, les comptes-rendus des réunions du groupe dont la dernière s’est tenue la semaine dernière.

En prime, je vous offre la fameuse photo du dodo du Salon du livre dont je vous parlais l’autre jour. Dans le genre espèces disparues…

Bibliothéconomie numérique

A lire sur le site de Ukoln, un guide de bonnes pratiques datant de l’an dernier et destiné aux institutions patrimoniales qui mettent des contenus en ligne.

Il y est question de gestion de projet, de numérisation, de CMS , de métadonnées, de préservation des données numériques, d’accessibilité… Tout ce qu’il faut.

J’en profite pour signaler la naissance d’une conférence internationale exclusivement consacrée à la bibliothéconomie numérique : Digital Curation Conference.

The term digital curation is used in this call for the actions needed to maintain digital research data and other digital materials over their entire life-cycle and over time for current and future generations of users.

Leur site nous promet aussi l’élaboration d’un manuel sur le sujet.

Merci à Lorcan Dempsey et à Diglet.

Technology watch

Deux rapports de veille technologique parus presque en même temps sont à signaler.

Le premier, c’est le "Technology Watch Report 3" de Digicult (attention très gros PDF de plus de 100 pages). Ce rapport examine six technologies jugées esentielles dans les tendances actuelles : les logiciels open source, le traitement du langage naturel, la recherche d’informations, les systèmes de localisation (genre GPS), la visualisation des données, la robotique et la réalité virtuelle.

Au programme : des définitions, le replacement dans le contexte stratégique, les implications en particulier pour les domaines scientifiques et culturels, des explications techniques, des études de cas et des scénarios, des perspectives pour la mise en oeuvre et la faisabilité. Incontournable.

Le second intitulé The large-scale archival storage of digital objects, Technology Watch Report est signé par la British Library et est accessible sur le site du DPC(Digital preservation coalition). Beaucoup moins long mais aussi beaucoup plus spécialisé, il traite de la problématique de la mise en place d’un système d’archivage à long termes de documents numériques dans tous ses aspects : le stockage, l’obsolescence des techniques, les logiciels, les coûts…

Merci à Ten Thousand Years Blog et à Digitizationblog.

Outils d’extraction de (méta)données

Aujourd’hui, je me suis beaucoup amusée avec deux de ces merveilleux outils qui permettent de rentrer un ou plusieurs fichiers, et de sortir complètement autre chose (en général, du XML, sinon où est l’intérêt…) Je trouve cela particulièrement réjouissant.

MARCXML converter est comme son nom l’indique un convertisseur de fichiers MARC (en sortie ISO 2709) en xml suivant le schéma MARCXML. Evidemment, il faut des notices MARC21 en entrée, sinon ça marche pas.

Dans un autre genre, la National Library of New Zealand propose en téléchargement son Metadata extraction Tool en version stable. Mais à quoi cela sert-il, me direz-vous ? Cela sert à extraire les données contenues dans les en-têtes de fichiers TIFF, JPEG, PDF, BMP, Open Office, Word, et bien d’autres. Mais à quoi cela sert-il, me direz-vous encore ? Parmi ces informations, on trouve un certain nombre de données sur le fichier (son auteur, sa date de création, etc) ainsi que des données techniques nécessaires pour la conservation à long terme (le format, la taille, etc) – l’objectif de la NLZ. Grâce à l’outil d’extraction, on peut obtenir des sorties en XML de ces données, pour un fichier ou pour plusieurs à la fois (ce qu’on appelle les objets complexes). Apparemment il est assez simple de changer le schéma XML de sortie pour mettre celui qui nous fait plaisir, ce qui fait de cet outil une vraie perle.

Tous deux fonctionnent avec une machine Java récente et doivent être installés (mais ils sont faciles à utiliser et à installer sous Windows).

Dans le genre outil magique, il y a aussi le Servoo qu’utilise Lodel pour convertir les fichiers Word ou Open Office en XHTML, et en plus, lui, il fait ça en ligne à distance ! Mais à force que tout le monde en parle, ça commence à se savoir.

Pourvu que ça dure…

Voici de la lecture dans le domaine de la préservation à long terme et de l’accès pérenne concernant les documents numériques…

Le rapport PREMIS est le résultat d’une enquête menée par un groupe de travail OCLC/RLG sur la préservation à long terme des documents numériques, pratiques actuelles, tendances émergentes.

Les communications du séminaire Erpanet sur les identifiants pérennes sont disponibles. 14 communications en powerpoint ou pdf, abordant entre autre OpenURL, Handle, DOI, Purl etc.

Pour que nos merveilleux documents numériques aient une chance de survivre à ce siècle d’incertitude et de folie.

J’en profite pour caser un petit proverbe corse : Pane biancu e fice mature, ma ch’ella dura !

Le BBF nouveau est arrivé

Le dernier numéro de notre périodique bibliothéconomique national est consacré au patrimoine, avec trois premiers articles excellents sur la définition du terme lui-même. Pour les consulter en toute liberté, passer par la page d’accueil pour s’authentifier.

Pour Michel Melot, le patrimoine n’est pas créé par la communauté mais la définit. Ainsi,

L’existence d’un patrimoine n’est pas, pour une communauté, un supplément d’âme : le patrimoine est nécessaire à l’existence de cette communauté. La communauté n’existe que parce qu’elle se représente dans des objets patrimoniaux.

Il en donne pour exemple, entre autres, la langue, la mémoire, et bien sûr les biens matériels, le patrimoine individuel lui-même ne se définissant que par rapport à une collectivité. J’admire toujours autant Michel Melot, ses idées lumineuses et ses métaphores décapantes, par exemple :

On pourrait en dire autant de l’alphabet dit « phonétique » dont la norme imposée par l’imprimerie pourrait être accusée comme « Windows » d’abus de position dominante.

Pour Frédéric Barbier, qui entame avec une définition éthymologique rigoureuse, c’était à l’origine justement tout le contraire :

là où la collectivité définissait son patrimoine selon des catégories juridico-politiques, c’est, aujourd’hui, le patrimoine qui définit et fonde la collectivité.

L’aspect intrinsèque du patrimoine pour la communauté serait donc une création de notre ère contemporaine en mal d’identité.

Le même Frédéric Barbier pousse plus loin son analyse et nous invite à nous méfier de « l’utopie de la reproduction » qui accompagne l’apparition de chaque nouvelle technologie, aujourd’hui la numérisation :

D’une manière générale, l’expert, donc le bibliothécaire, devra être sensible aux utopies de la reproduction : l’utopie de la reproduction universelle (tous les textes seraient transposés sur un nouveau support)(…). L’utopie, aussi, de la reproduction « transparente » – laquelle rejoint, dans une certaine mesure, l’utopie de l’information « transparente »…

Enfin, Henri-Jean Martin interviewé par le BBF déclare

le patrimoine est une création continue

et que

La lecture publique (…) ne devrait pas exister

avec un petit côté provocateur qui lui sied si bien.

On profitera aussi dela page "panorama du Web" qui signale un grand nombre de ressources sur la numérisation du patrimoine avec quelques exemples de collections numérisées.

De l’accès (et autres questions)

Le CLIR publie un ouvrage collectif sur les tendances qui affectent les bibliothèques, et en particulier la manière dont elles donnent accès aux ressources qui intéressent les chercheurs.

Access in the future tense rassemble six articles, qui abordent en fait aussi bien le problème de la préservation de l’information que celui de l’accès proprement dit (mais comme on le sait, ces deux notions sont aussi indissociables qu’antinomiques pour les bibliothèques…)

L’ouvrage est disponible librement, en texte ou en PDF, et on peut aussi le commander en papier pour 20$.

Moins accessible hélas, le numéro 39 (4e volume, 2004) de Journal of Library Administration est un numéro spécial sur l’accès (plus précisément : Improved Access to Information: Portals, Content Selection, and Digital Information). Il semble que les heureux suscripteurs d’un abonnement à ce journal se régaleront d’articles orientés usagers et services. Les autres se contenteront d’enrichir leur bibliographie.

Enfin, les lecteurs d’Outils Froids ont eu la joie de plonger à l’intérieur de l’esprit des utilisateurs de moteurs de recherche pour y découvrir comment ceux-ci s’orientent dans les listes de résultats. Utile et à mettre en perspective avec nos propres interfaces de recherche : de telles études pourraient bien apporter un coup mortel au mythe de la liste de réponses parfaite, sans bruit ni silence.