Les métadonnées descriptives de RLG

RLG vient de publier : "Descriptive Metadata Guidelines for RLG Cultural Materials", un guide de bonnes pratiques pour la soumission de métadonnées descriptives pour Cultural Materials.

Je n’ai pas encore vraiment eu le temps de le lire jusqu’au bout. Quelques observations sur la partie concernant les formats :

  • à peu près tous les formats sont acceptés, en commençant par XML (c’est vague) et MARC (aussi). Et en allant jusqu’aux champs séparés par des tabulations et des virgules.
  • le document semble converger vers une préférence pour les métadonnées les plus détaillées dans leur format d’origine, plutôt que vers un échange basé sur une conversion avec perte potentielle d’information.

Je trouve ces premiers choix assez étranges, pour ma part j’aurais tendance à penser que quand on cherche à faire converger des sources hétérogèmes, une perte d’information descriptive est acceptable au profit de la cohérence du tout.

Je ne peux guère en dire plus pour l’instant mais je pourrai mettre ce billet à jour quand je serai allée jusqu’au bout ;-)

Numériser ce n’est pas éditer (2)

Lire aussi le (1) : Les joies de la déconstruction numérique.

Dans le cadre du numérique, les champs d’action des différents métiers de la chaîne du livre sont à redéfinir. L’équilibre auteur – éditeur – lecteur devient biaisé. L’élément livre, qui faisait le lien entre l’auteur et le lecteur dans la bibliothèque, n’était pas une production de la bibliothèque. La numérisation, qui tient le même rôle, en est une.

Et pourtant, apportant une solution au fameux paradoxe de la conservation vs. la communication, la diffusion par la numérisation est clairement une mission de la bibliothèque. Mais on ne se contente pas de scanner un livre : il faut aussi des outils pour recréer un objet physique consultable et compréhensible. La bibliothèque devient productrice de ces outils. Son rôle d’intermédiaire en est changé.

La bibliothèque produit : elle fait acte de publication. Le problème est de définir la frontière entre la mise au public et l’édition, frontière de plus en plus insensible qui amène assez facilement à une tentation d’amalgame.

Dans la numérisation en mode image, les frontières sont relativement simples à délimiter. Pour le bibliothécaire, l’essentiel est de garder l’intégrité de l’ouvrage : le montrer dans une forme aussi proche que possible de celle qui a été communiquée au public à l’origine. On est plus dans le domaine du fac-similé ou de la réimpression que de l’édition.

La numérisation en mode texte pose plus de problèmes car le balisage est une intervention sur le contenu du texte lui-même. Le balisage est-il une forme d’édition ou une adaptation d’un support à un autre ? Il devrait, pour ne pas outrepasser les limites de la numérisation, se limiter strictement à un marquage qui n’interprète pas le texte ou le document, conserver une sacro-sainte neutralité… en admettant que cela soit possible.

L’acte d’éditer, c’est – cela a toujours été – produire ; produire quelque chose de nouveau qui n’existait pas auparavant. L’édition électronique et la numérisation vont utiliser les mêmes matériaux, outils, techniques de base, peut-être la même réflexion sur les interfaces par exemple : mais c’est leur objectif et leur nature qui diffèrent. On parle souvent de la valeur ajoutée apportée par l’édition. Il serait pourtant faux de dire que la numérisation n’ajoute aucune valeur. Mais l’édition ajoute une valeur intellectuelle alors que la numérisation est un acte technique qui s’appuie sur l’existant.

La numérisation et l’édition électronique ne sont cependant pas incompatibles. On peut faire une édition et une numérisation en même temps. Le bibliothécaire, à travers la numérisation, l’interface, les métadonnées, préserve l’intégrité de l’ouvrage. L’éditeur peut dès lors intervenir pour replacer cette numérisation dans un nouveau contexte, produit par un auteur. L’auteur produit le texte, et l’éditeur met en forme pour le Web le texte de l’auteur et assure l’intégration et la relation avec le document numérisé.

Quand on dit « numériser », c’est clair, on se situe dans un contexte informatique. Quand on dit « éditer », rien ne précise le support concerné par cet acte intellectuel. Nous avons dit, « numériser, ce n’est pas éditer » : on pourrait tout aussi bien répondre, « écrire pour le Web, ce n’est pas réimprimer ».

(A suivre)

Nouvelle interface de visualisation par OCLC

OCLC vient de sortir une démo d’interface de visualisation pour accéder à des e-books. L’interface est développée par Antartica systems et vise les utilisateurs de FirstSearch.

J’ai testé un peu le truc, bien sûr il me manquait toujours l’étape finale d’accès à l’e-book puisque je n’avais pas les droits. J’avoue que tout ceci me laisse perplexe.

Une fois passée la première réjouissance de se ballader dans une navigation arborescente assez bien faite (y compris lorsqu’on s’intéresse à un truc totalement bizarre comme… je sais pas moi… la diplomatique contemporaine ;-), on se demande tout de même à quoi servent ces carrés de toutes les couleurs qui n’apportent pas grand chose.

Quelques hypothèses :

  • vous êtes un lecteur particulièrement docile et obéissant, et vous avez lu jusqu’à la dernière ligne le tutoriel par lequel on vous oblige à passer avant d’accéder à l’interface. Donc vous savez à quoi servent les carrés et les couleurs. Bravo. Pas moi (je l’ai lu seulement après).
  • pour l’expérience utilisateur. C’est plus joli des carrés verts clairs que des résultats noirs sur blanc. Ce qui reste à prouver.
  • pour connaître d’un seul coup d’oeil l’état de la collection. Là je vous renvoie au premier point. En outre, mon côté pervers m’incite à cliquer en priorité sur les plus petits carrés et ceux dont on ne voit pas l’intitulé…

En bref, pour moi cette expérience montre surtout que pour avoir un accès intéressant à une bibliothèque numérique, surtout quand on ne connaît pas au préalable son contenu, un bon système de navigation par listes ("browse" en anglais) est essentiel. Ce qui suppose aussi une classification des documents performante et éventuellement plusieurs classifcations complémentaires et interopérantes (on aboutit alors à la navigation à facettes). Par contre les carrés, c’est un peu superflu.

Merci à RessourceShelf

Format du 3e millénaire

Imaginez un format d’images ouvert, avec un excellent taux de compression mais sans pertes. Imaginez que ce format permette de stocker aussi bien des métadonnées descriptives que techniques et des métadonnées de préservation à l’intérieur même du fichier. Imaginez enfin que ce format permette de stocker dans le même fichier plusieurs résolutions d’une image pour gérer différents affichages ou des fonctionnalités de zoom.

Ce format il existe, c’est le Jpeg2000.

Pour en savoir plus sur le Jpeg2000 et son implantation dans les bibliothèques et les archives, un nouveau site vient d’être créé : JPEG 2000 in Archives and Libraries.

En fait, ce qui est intéressant dans ce site outre son sujet, c’est que c’est un blog (même s’il ne dit pas son nom). Il se propose aussi d’ouvrir un espace de blog personnel pour les particiapnts, mais ce n’est pas encore très actif de ce côté. Et bien sûr, il dispose d’un fil RSS.

Merci à Digitization blog.

Les joies de la déconstruction numérique (1)

J’aime bien dire (et mon geek ne me contredira pas sur ce point ;-) que le numérique change à la fois beaucoup et pas grand chose dans la façon dont on appréhende le document, ou même, la bibliothèque.

Quand on essaye de définir ce qu’est une bibliothèque numérique, on en arrive assez rapidement à repartir des bonnes vieilles missions de la bibliothèque tout court : sélectionner, décrire, ranger, communiquer, etc.

Du point de vue du document, la numérisation est un exercice plus complexe que simplement passer un bouquin dans un scanner. Parce que numériser un livre, c’est le déconstruire : il faut ensuite lui rendre son intégrité par les métadonnées, la navigation et les interfaces. La tentation aussi est grande d’en profiter pour rajouter de l’information, voire de l’analyse, ce en quoi il faut aussi se méfier car numériser, ce n’est pas éditer. L’intégrité du document prime donc sur le reste, la numérisation doit tenir pour essentiels les concepts de respect de l’original et de mise en contexte, à la fois à l’échelle du document, mais aussi du corpus ou du fonds dans lequel il se trouve.

C’est seulement à ce prix que la numérisation est utile, parce qu’elle est alors un véritable support de substitution pour le chercheur, parce qu’elle garantit grâce à cette intégrité du document la confiance que peut avoir le chercheur dans la traçabilité du document qu’il étudie (un peu comme pour les vaches folles).

Et tout ça pour dire, avec Zid : non au dépeçage des manuscrits médiévaux, qu’il soit virtuel ou dans la vraie vie (non, on ne s’en fout pas ;-)

A lire aussi, cet article de mon geek qui récapitule un certain nombre de nos idées essentielles sur ce sujet.

Ca faisait longtemps qu’on voulait faire un billet à quatre mains là-dessus, alors je pense qu’il y aura une suite. A suivre donc.

Les métadonnées de l’espace

Le CNES a mis en ligne les interventions d’un atelier qui a eu lieu à Toulouse le mois dernier sur le thème des métadonnées. Au programme : la confrontation d’acteurs issus de mondes différents et qui se posent les mêmes questions.

C’est vraiment intéressant de voir comment tous les gens qui gèrent des données, et donc des métadonnées, se trouvent confrontés aux mêmes problématiques : l’intéropérabilité, la normalisation, la modélisation, les interfaces d’accès, l’adéquation de la description aux besoins des utilisateurs… On constate aussi que tout le monde a recours aux mêmes technologies et aux mêmes architectures pour gérer ses métadonnées au sein d’un système, le tout reposant sur des modèles comme l’OAIS.

Parmi les interventions pour la plupart très orientées sciences dures et en particulier sciences de la terre au sens large, on trouve quand même un papier sur les archives numériques par un archiviste de la Direction des Archives de France, et un autre sur les métadonnées en bibliothèque et sur METS, par votre serviteuse ;-)

Les jolis identifiants opaques

Amis bibliogeeks, j’ai encore des outils magiques dans ma besace.

Aujourd’hui, je vais vous parler des Noids – rien à voir avec Star Wars, malgré les apparences : ce sont les Nice Opaque IDentifiers ou jolis identifiants opaques (hum). Petite définition : les identifiants opaques sont des codes alphanumériques qui permettent de faire référence de manière pérenne à un objet (numérique ou non) et qui ne portent pas de signification. Par exemple un numéro en séquence. Ou un PURL ou un DOI, un Handle, un ARK, etc.

Il existe un logiciel open source qui permet de générer et de gérer des Noids et qui s’apelle Noid (re-hum).

Noid est vraiment en bonne place dans le rang des outils magiques, et qui plus est, bien faits et bien pensés. On peut lui demander de générer n’importe quelle série d’identifiants, en paramétrant un préfixe qui reste toujours le même, et un masque numérique ou alphanumérique, qui a un nombre de caractères limité ou non, séquentiel ou aléatoire. Noid relie ensuite ces identifiants aux objets numériques (ou pas, d’ailleurs) dans une base de données, et le tour est joué ! Vous avez un gestionnaire d’identifiants qui sait aussi les retrouver, les déplacer, les remplacer, les réutiliser, etc.

Avec un outil pareil, la seule chose qui reste à faire, c’est bien réfléchir à ce que l’on attend de ses identifiants. Donc, bien définir les fonctionnalités. Comme toujours, au fonds.

Noid nous vient directement de la California Digital Library via John Kunze.

Les ressources :

Merci à Younes et à Julien.

Outils d’extraction de (méta)données

Aujourd’hui, je me suis beaucoup amusée avec deux de ces merveilleux outils qui permettent de rentrer un ou plusieurs fichiers, et de sortir complètement autre chose (en général, du XML, sinon où est l’intérêt…) Je trouve cela particulièrement réjouissant.

MARCXML converter est comme son nom l’indique un convertisseur de fichiers MARC (en sortie ISO 2709) en xml suivant le schéma MARCXML. Evidemment, il faut des notices MARC21 en entrée, sinon ça marche pas.

Dans un autre genre, la National Library of New Zealand propose en téléchargement son Metadata extraction Tool en version stable. Mais à quoi cela sert-il, me direz-vous ? Cela sert à extraire les données contenues dans les en-têtes de fichiers TIFF, JPEG, PDF, BMP, Open Office, Word, et bien d’autres. Mais à quoi cela sert-il, me direz-vous encore ? Parmi ces informations, on trouve un certain nombre de données sur le fichier (son auteur, sa date de création, etc) ainsi que des données techniques nécessaires pour la conservation à long terme (le format, la taille, etc) – l’objectif de la NLZ. Grâce à l’outil d’extraction, on peut obtenir des sorties en XML de ces données, pour un fichier ou pour plusieurs à la fois (ce qu’on appelle les objets complexes). Apparemment il est assez simple de changer le schéma XML de sortie pour mettre celui qui nous fait plaisir, ce qui fait de cet outil une vraie perle.

Tous deux fonctionnent avec une machine Java récente et doivent être installés (mais ils sont faciles à utiliser et à installer sous Windows).

Dans le genre outil magique, il y a aussi le Servoo qu’utilise Lodel pour convertir les fichiers Word ou Open Office en XHTML, et en plus, lui, il fait ça en ligne à distance ! Mais à force que tout le monde en parle, ça commence à se savoir.

Pourvu que ça dure…

Voici de la lecture dans le domaine de la préservation à long terme et de l’accès pérenne concernant les documents numériques…

Le rapport PREMIS est le résultat d’une enquête menée par un groupe de travail OCLC/RLG sur la préservation à long terme des documents numériques, pratiques actuelles, tendances émergentes.

Les communications du séminaire Erpanet sur les identifiants pérennes sont disponibles. 14 communications en powerpoint ou pdf, abordant entre autre OpenURL, Handle, DOI, Purl etc.

Pour que nos merveilleux documents numériques aient une chance de survivre à ce siècle d’incertitude et de folie.

J’en profite pour caser un petit proverbe corse : Pane biancu e fice mature, ma ch’ella dura !

Confiture de métadonnées

Voilà, faut que je vide mon aggrégateur de tous les liens intéressants qu’il contient. Une subite angoisse de la page blanche me saisit. Ou plutôt de l’écran blanc. Toutes ces choses que je n’ai pas eu le temps de lire, prise que j’étais par ma cueillette de pommes, de coings, de citrouilles, de noix et de pêches…

J’ai donc décidé de procéder méthodiquement.

En commençant par le moins lourd, à savoir les métadonnées. J’ai seulement deux liens :

Donc je le repête, ne me demandez pas ce que ça raconte, j’ai pas eu le temps de lire encore.

A part ça, pour ceux que ça intéresse, j’ai craqué, j’ai encore racheté des figues pour faire de la confiture, il faut dire que j’étais tombée sur une recette de confiture pêche-figue et que j’avais plein de pêches dont je savais pas quoi faire. Elle a l’air bonne même si elle a pas trop bien « pris ».

Ah oui, merci à Ressource Shelf et à Catalogablog pour l’info (oui, je sais, c’est toujours les mêmes, c’est pas de ma faute s’ils sont intéressants).