Les métadonnées descriptives de RLG

RLG vient de publier : "Descriptive Metadata Guidelines for RLG Cultural Materials", un guide de bonnes pratiques pour la soumission de métadonnées descriptives pour Cultural Materials.

Je n’ai pas encore vraiment eu le temps de le lire jusqu’au bout. Quelques observations sur la partie concernant les formats :

  • à peu près tous les formats sont acceptés, en commençant par XML (c’est vague) et MARC (aussi). Et en allant jusqu’aux champs séparés par des tabulations et des virgules.
  • le document semble converger vers une préférence pour les métadonnées les plus détaillées dans leur format d’origine, plutôt que vers un échange basé sur une conversion avec perte potentielle d’information.

Je trouve ces premiers choix assez étranges, pour ma part j’aurais tendance à penser que quand on cherche à faire converger des sources hétérogèmes, une perte d’information descriptive est acceptable au profit de la cohérence du tout.

Je ne peux guère en dire plus pour l’instant mais je pourrai mettre ce billet à jour quand je serai allée jusqu’au bout ;-)

Numériser ce n’est pas éditer (2)

Lire aussi le (1) : Les joies de la déconstruction numérique.

Dans le cadre du numérique, les champs d’action des différents métiers de la chaîne du livre sont à redéfinir. L’équilibre auteur – éditeur – lecteur devient biaisé. L’élément livre, qui faisait le lien entre l’auteur et le lecteur dans la bibliothèque, n’était pas une production de la bibliothèque. La numérisation, qui tient le même rôle, en est une.

Et pourtant, apportant une solution au fameux paradoxe de la conservation vs. la communication, la diffusion par la numérisation est clairement une mission de la bibliothèque. Mais on ne se contente pas de scanner un livre : il faut aussi des outils pour recréer un objet physique consultable et compréhensible. La bibliothèque devient productrice de ces outils. Son rôle d’intermédiaire en est changé.

La bibliothèque produit : elle fait acte de publication. Le problème est de définir la frontière entre la mise au public et l’édition, frontière de plus en plus insensible qui amène assez facilement à une tentation d’amalgame.

Dans la numérisation en mode image, les frontières sont relativement simples à délimiter. Pour le bibliothécaire, l’essentiel est de garder l’intégrité de l’ouvrage : le montrer dans une forme aussi proche que possible de celle qui a été communiquée au public à l’origine. On est plus dans le domaine du fac-similé ou de la réimpression que de l’édition.

La numérisation en mode texte pose plus de problèmes car le balisage est une intervention sur le contenu du texte lui-même. Le balisage est-il une forme d’édition ou une adaptation d’un support à un autre ? Il devrait, pour ne pas outrepasser les limites de la numérisation, se limiter strictement à un marquage qui n’interprète pas le texte ou le document, conserver une sacro-sainte neutralité… en admettant que cela soit possible.

L’acte d’éditer, c’est – cela a toujours été – produire ; produire quelque chose de nouveau qui n’existait pas auparavant. L’édition électronique et la numérisation vont utiliser les mêmes matériaux, outils, techniques de base, peut-être la même réflexion sur les interfaces par exemple : mais c’est leur objectif et leur nature qui diffèrent. On parle souvent de la valeur ajoutée apportée par l’édition. Il serait pourtant faux de dire que la numérisation n’ajoute aucune valeur. Mais l’édition ajoute une valeur intellectuelle alors que la numérisation est un acte technique qui s’appuie sur l’existant.

La numérisation et l’édition électronique ne sont cependant pas incompatibles. On peut faire une édition et une numérisation en même temps. Le bibliothécaire, à travers la numérisation, l’interface, les métadonnées, préserve l’intégrité de l’ouvrage. L’éditeur peut dès lors intervenir pour replacer cette numérisation dans un nouveau contexte, produit par un auteur. L’auteur produit le texte, et l’éditeur met en forme pour le Web le texte de l’auteur et assure l’intégration et la relation avec le document numérisé.

Quand on dit « numériser », c’est clair, on se situe dans un contexte informatique. Quand on dit « éditer », rien ne précise le support concerné par cet acte intellectuel. Nous avons dit, « numériser, ce n’est pas éditer » : on pourrait tout aussi bien répondre, « écrire pour le Web, ce n’est pas réimprimer ».

(A suivre)

Crumble

Ce week-end j’ai expérimenté avec succès une évolution de ma recette habituelle de crumble (ou pour être plus précise, de tarte au crumble, vous allez comprendre la nuance).

J’avais l’habitude de faire une tarte où je mélangeais tous les fruits de saison, couronnée par une croûte croustillante de type crumble, mais très fine. Mon geek était content, mais je sentais que je pouvais faire mieux. J’ai donc supprimé tous les ingrédients superflus et doublé la quantité de ceux qui faisaient que c’était bon.

Donc voilà.

  • Dans un moule assez profond, étaler une pâte brisée ou sablée.
  • Couper en dés quatre pommes et deux bananes. Répartir les fruits sur la pâte en une couche de 2cm d’épaisseur environ.
  • Enfourner dans un four préchauffé à 220° pendant 1/4 d’heure.
  • Pendant ce temps, préparer le crumble : on malaxe 50g de beurre mou et 50g de sucre, puis on ajoute 100g de farine et un peu de canelle. On doit obtenir une poudre pas trop fine, granuleuse.
  • Au bout d’1/4 d’h de cuisson, sortir le plat du four, verser 1/2 verre de jus d’orange sur les fruits, et étaler le crumble sur les fruits. Remettre au four jusqu’à ce que la croûte soit bien dorée.

Cette recette est excellente mais terriblement éloignée de l’authentique crumble véritable. Si quelqu’un a une autre recette, je suis preneuse.

Et si on arrêtait de faire des métadonnées ?

Cet article (pdf) au titre un brin provocateur était arrivé dans mes fils dans le lot nombreux de documents en tous genres sur les métadonnées, et je ne pensais pas m’y attarder plus que ça.

Mais comme il commence par une amusante parabole et que j’adore ça, je me suis laissée prendre par sa lecture, et même intéresser par cette proposition ô combien indécente : et si on faisait un moratoire sur les métadonnées ?

De fait, les idées exposées par l’auteur de cet article ont un côté pragmatique assez séduisant. Le constat est le suivant : le travail élaboré depuis 10 ans sur les métadonnées, notamment avec Dublin Core, MPEG-7 pour les vidéos, et le Web sémantique, est arrivé à un certain plafonnement. On s’aperçoit aujourd’hui (toujours d’après l’auteur de l’article, je précise) que rien ne remplace en performance et en pertinence la recherche plein-texte. Et pourtant, pour ce qui est de la recherche de documents multimédias, on n’a pas vraiment avancé. On sait aujourd’hui que quel que soit le nombre de mots qu’on accolera à une image pour la décrire, il sera impossible d’anticiper tous les usages. Quant aux métadonnées techniques qui sont les seules qu’on extrait automatiquement, elles se révèlent inutiles quand l’objectif est de trouver.

L’auteur propose de valider une bonne fois les acquis puis de cesser de faire des métadonnées, ou plutôt de cesser au moins pour un temps d’aborder la perspective de la recherche d’information à travers la problématique de la description. Il faut trouver d’autres voies.

Ce qui m’a plu dans cet article, c’est la réflexion sur la description de l’image. Quand on s’intéresse de près aux images, on sait très bien qu’aucune description ne peut remplacer notre oeil et notre perception humaine, même hyper-rapide sur un microfilm qui déroule à tout allure, par exemple. Par contre, je suis sceptique quant à la capacité de programmes informatiques à effectuer cette analyse optique à notre place. Il y aurait beaucoup trop de paramètres à entrer, dont certains sont purement intuitifs.

Je reste partisanne, mais je le disais déjà hier, d’outils qui facilitent le « scannage » humain de collections massives d’images : des outils de navigation simples, efficaces, avec des classifications pertinentes plutôt qu’une véritable indexation. Evidemment pour des sons et même des vidéos c’est beaucoup moins évident.

Nouvelle interface de visualisation par OCLC

OCLC vient de sortir une démo d’interface de visualisation pour accéder à des e-books. L’interface est développée par Antartica systems et vise les utilisateurs de FirstSearch.

J’ai testé un peu le truc, bien sûr il me manquait toujours l’étape finale d’accès à l’e-book puisque je n’avais pas les droits. J’avoue que tout ceci me laisse perplexe.

Une fois passée la première réjouissance de se ballader dans une navigation arborescente assez bien faite (y compris lorsqu’on s’intéresse à un truc totalement bizarre comme… je sais pas moi… la diplomatique contemporaine ;-), on se demande tout de même à quoi servent ces carrés de toutes les couleurs qui n’apportent pas grand chose.

Quelques hypothèses :

  • vous êtes un lecteur particulièrement docile et obéissant, et vous avez lu jusqu’à la dernière ligne le tutoriel par lequel on vous oblige à passer avant d’accéder à l’interface. Donc vous savez à quoi servent les carrés et les couleurs. Bravo. Pas moi (je l’ai lu seulement après).
  • pour l’expérience utilisateur. C’est plus joli des carrés verts clairs que des résultats noirs sur blanc. Ce qui reste à prouver.
  • pour connaître d’un seul coup d’oeil l’état de la collection. Là je vous renvoie au premier point. En outre, mon côté pervers m’incite à cliquer en priorité sur les plus petits carrés et ceux dont on ne voit pas l’intitulé…

En bref, pour moi cette expérience montre surtout que pour avoir un accès intéressant à une bibliothèque numérique, surtout quand on ne connaît pas au préalable son contenu, un bon système de navigation par listes ("browse" en anglais) est essentiel. Ce qui suppose aussi une classification des documents performante et éventuellement plusieurs classifcations complémentaires et interopérantes (on aboutit alors à la navigation à facettes). Par contre les carrés, c’est un peu superflu.

Merci à RessourceShelf

Format du 3e millénaire

Imaginez un format d’images ouvert, avec un excellent taux de compression mais sans pertes. Imaginez que ce format permette de stocker aussi bien des métadonnées descriptives que techniques et des métadonnées de préservation à l’intérieur même du fichier. Imaginez enfin que ce format permette de stocker dans le même fichier plusieurs résolutions d’une image pour gérer différents affichages ou des fonctionnalités de zoom.

Ce format il existe, c’est le Jpeg2000.

Pour en savoir plus sur le Jpeg2000 et son implantation dans les bibliothèques et les archives, un nouveau site vient d’être créé : JPEG 2000 in Archives and Libraries.

En fait, ce qui est intéressant dans ce site outre son sujet, c’est que c’est un blog (même s’il ne dit pas son nom). Il se propose aussi d’ouvrir un espace de blog personnel pour les particiapnts, mais ce n’est pas encore très actif de ce côté. Et bien sûr, il dispose d’un fil RSS.

Merci à Digitization blog.

Les joies de la déconstruction numérique (1)

J’aime bien dire (et mon geek ne me contredira pas sur ce point ;-) que le numérique change à la fois beaucoup et pas grand chose dans la façon dont on appréhende le document, ou même, la bibliothèque.

Quand on essaye de définir ce qu’est une bibliothèque numérique, on en arrive assez rapidement à repartir des bonnes vieilles missions de la bibliothèque tout court : sélectionner, décrire, ranger, communiquer, etc.

Du point de vue du document, la numérisation est un exercice plus complexe que simplement passer un bouquin dans un scanner. Parce que numériser un livre, c’est le déconstruire : il faut ensuite lui rendre son intégrité par les métadonnées, la navigation et les interfaces. La tentation aussi est grande d’en profiter pour rajouter de l’information, voire de l’analyse, ce en quoi il faut aussi se méfier car numériser, ce n’est pas éditer. L’intégrité du document prime donc sur le reste, la numérisation doit tenir pour essentiels les concepts de respect de l’original et de mise en contexte, à la fois à l’échelle du document, mais aussi du corpus ou du fonds dans lequel il se trouve.

C’est seulement à ce prix que la numérisation est utile, parce qu’elle est alors un véritable support de substitution pour le chercheur, parce qu’elle garantit grâce à cette intégrité du document la confiance que peut avoir le chercheur dans la traçabilité du document qu’il étudie (un peu comme pour les vaches folles).

Et tout ça pour dire, avec Zid : non au dépeçage des manuscrits médiévaux, qu’il soit virtuel ou dans la vraie vie (non, on ne s’en fout pas ;-)

A lire aussi, cet article de mon geek qui récapitule un certain nombre de nos idées essentielles sur ce sujet.

Ca faisait longtemps qu’on voulait faire un billet à quatre mains là-dessus, alors je pense qu’il y aura une suite. A suivre donc.

Internet, une menace pour les bibliothèques ?

Alors que Google se lance dans une numérisation de masse sans précédent, décidé à faire entrer le livre dans le Web dans des proportions jusque-là inégalées, on se demande si les bibliothèques devraient trembler de peur devant ceux qui annoncent que bientôt, complètement dépassées par l’Internet, elles devront fermer leurs portes.

En ce qui concerne les américains, on peut dire qu’ils sont plutôt confiants. Cet article rapporte les résultats d’une étude qui montre au contraire que sur les cinq dernières années, l’usage d’Internet et celui des bibliothèques aux Etats-Unis ont été parfaitement complémentaires. Une population jeune, avec un niveau d’éducation élevée, tend à utiliser aussi bien les bibliothèques qu’Internet dans une démarche de recherche d’information globale.

La présidente de l’ALA citée dans cet autre article fait la même constatation sur l’augmentation de la fréquentation des bibliothèques américaines depuis l’explosion du Web.

Les bibliothèques ont donc encore de beaux jours devant elles, pour peu qu’elles se montrent capables de suivre le mouvement. Comme le suggère ce plaidoyer pour que la bibliothèque nationale canadienne numérise l’intégralité de son fonds (à condition que l’Etat fasse en sorte qu’elle puisse en avoir le droit).

Tout ceci est bel et bien, et nous laisse imaginer que les bibliothèques numériques devraient prendre un poids important dans le Web, étant donné la masse de contenu qu’elles ont déjà à leur disposition. Mais quand on lit les conclusions du dernier rapport du Pew Internet & American Life Project, qui analyse une enquête menée auprès d’experts du Web sur les tendances futures, on se dit qu’il y a du souci à se faire. Même s’il évoque une menace pesant plutôt sur les actualités et la publication dans les formes où on les connaît actuellement, ce rapport flagelle le manque de dynamisme des institutions. Et les bibliothèques y sont à peine évoquées, ce qui n’apparaît pas comme un signe très prometteur.

La question n’est sans doute pas de savoir si les bibliothèques sont ou non menacées par Internet. Mais bien plutôt de savoir quelle sera l’ampleur de la remise en cause nécessaire pour les adapter à un monde régi par d’autres règles et d’autes modèles que ceux qui ont toujours été les leurs.

Merci à Peter Scott, ShelfLife, et ResourceShelf.

(Je sais pas ce que j’ai à être aussi sérieuse ce soir, ça doit être un résidu des discussions animées du week-end ;-)

Bonne année 2005

Pour commencer cette nouvelle année, quelques bonnes résolutions s’imposent.

Si vous n’avez pas d’idée de bonne résolution, vous pouvez en générer automatiquement chez rMen’s.

J’ai aussi quelques propositions de mauvaises résolutions à adopter illico presto :

Merci à Fred Cavazza, Sebastien Bailly, et Faut le savoir.

Et mainentant, au boulot. Et bonne année.

L’information dans la société de consommation (ou l’inverse)

Aujourd’hui, deux articles de nos quotidiens nationaux en ligne attirent mon attention.

Dans le Monde, on nous apprend que d’après une étude de l’Observatoire du débat public, "l’information tend à devenir un produit de consommation". La façon dont les français grapillent l’information à travers tous les médias, au lieu de s’en tenir au sacro-saint journal de 20h, y est comparée au phénomène de la malbouffe. Le français a aussi tendance à se laisser submerger par une information qu’il reçoit sans l’avoir souhaitée, par exemple avec le quotidien gratuit distribué à l’entrée du métro. Quelques points positifs tout de même : en quête d’information brute à la source, notre français fait preuve d’un désir d’analyse et d’une recherche de profondeur. Il s’intéresse aussi bien à des phénomènes qui se passent à l’autre bout du monde que chez lui.

Ce qui fait une parfaite transition avec l’autre article : celui de Libé qui encense la rapidité et la pertinence avec laquelle la blogosphère réagit à la catastrophe des Tsunamis. Tout en pratiquant une légitime prudence ("avec ces blogs qui mêlent photos persos et photos d’agences, commentaires, articles de presse et infographies non sourcées, difficile parfois de savoir qui écrit ou photographie quoi. Mais les ressources sont là."), l’article va jusqu’à qualifier les ressources citées de "mine à infos… à consulter absolument".

Je trouve cela épatant de voir comment on passe en lisant tout cela d’un extrème à l’autre. Il est facile d’avoir une vision négative de la façon dont l’information circule sur Internet, il suffit d’utiliser des référents inappropriés et d’analyser les pratiques sans changer de point de vue. Pour moi c’est du même niveau que de comparer un livre numérisé et un livre papier, en arguant que c’est fatiguant de lire sur un écran. La blogosphère constitue un moyen de circulation de l’info, pas pire, pas meilleur non plus, simplement différent. Quant à parler de « malinfo » en comparaison à la malbouffe, on se tue à le dire, mais disons-le encore une fois : non, un bien culturel (ou informationnel) n’est pas un bien comme les autres. Alors il serait temps d’accepter que nos enfants n’auront pas la même façon que nous d’appréhender la connaissance, l’information, la culture. Et que c’est pas grave.

J’ai dû aller jusqu’au Brésil pour trouver le premier lien ;-)