Confiture bibliothéconomique

Allez, maintenant que j’ai un peu retrouvé la forme, il faut bien élaguer un peu le résidu des vacances. Confiturons.

Merci à toujours les mêmes (Catalogablog, 10KYBlog, etc. j’ai la flemme de mettre les liens.)

e-bibliothécaires

Hier, j’étais invitée à cette journée par les conservateurs stagiaires de l’ENSSIB pour y parler de choses qui me tiennent à coeur. Je crois que j’ai réussi à intéresser les gens avec un sujet comme la conservation du document numérique, ce qui n’était pas gagné.
L’après-midi j’ai dû faire un changement de personnalité schizophrénique pour parler de mon blog, mais ça a été moins dur que je n’aurais cru, notamment grâce à la bonne ambiance qui régnait.

Cela a été l’occasion de rencontrer des tas de gens, certains que je connaissais virtuellement, d’autres que j’avais déjà rencontré, certains blogueurs, d’autres pas blogueurs mais bien présents sur le Web… C’était un peu comme Paris-Carnet mais en sérieux et avec moins de bière ;-)

La table-ronde de l’après-midi avec Nicolas, Marlène et les autres était plutôt sympa, je doute qu’on ait changé le monde et on se connaît trop bien (virtuellement) pour réellement provoquer du débat, mais c’était agréable (vu depuis l’estrade en tout cas).

Bref, une bonne journée au final, il manquait quelques personnes de la biblioblogosphère mais on a bien pensé à eux, et ce sera pour une prochaine fois.

Changer les catalogues

Les bibliothécaires américains semblent être en train de constater qu’il y a un vrai problème avec les catalogues de bibliothèque actuels, et un sacré besoin d’évolution. Les rapports fleurissent sur le sujet, en voici deux :

J’avoue avoir été carrément déçue par le second. J’aurais peut-être dû lire attentivement les annexes plutôt que de me contenter de parcourir les recommandations, mais globalement, ce qui est proposé me paraît assez peu novateur. Faire de la recherche fédérée, mutualiser le catalogage, mieux intégrer les ressources électroniques, je ne vois pas bien ce qu’il y a de révolutionnaire là-dedans. Enfin le rapport ne cesse de faire référence à un modèle économique abscons suivant lequel il faudrait équilibrer les dépenses liées au catalogage et la « demande » des utilisateurs pour ce « produit ».

Le premier est un peu plus ouvert vers les usagers et comporte quelques idées innovantes apparemment un peu plus appronfondies. On y trouve par exemple des réflexions sur les différents formats de métadonnées, l’extraction automatique des descriptions, la recherche plein texte et l’utilisation des FRBR. Idées qui n’était pas absentes de celui de la LoC mais qui sont ici mieux développées.

Je m’attendais à voir des recommandations sur l’annotation des notices par les lecteurs en mode wiki et la mise en places des recommandations d’ouvrage à partir de ce qu’on à déjà consulté (à la Amazon). Apparemment, ce sujet est évoqué mais pas intégré dans les propositions d’évolution ; admettons qu’il est trop tôt.

Par contre, on continue de voir le catalogue comme un outil à la fois unique et ambivalent, LE lieu où l’on produit ET consulte les notices. Il y a là un problème : comment un tel produit intégré pourrait-il s’adapter aux innombrables usages possibles qui naissent et perdurent sur le Web ? Moi je verrais bien l’évolution du catalogue vers un statut de base "pivot", contenant des données en XML qu’on pourrait réutiliser à volonté, dans des applications adaptées aux différents types d’usagers.
Celui qui veut feuilleter, parcourir, découvrir au hasard devait pouvoir le faire. Celui qui veut améliorer le catalogue, donner son avis, devrait pouvoir le faire. Celui qui a une bibliographie de son prof et doit trouver rapidement la dernière édition d’un ouvrage courant dans la bibliothèque la plus proche devrait pouvoir le faire. Celui qui utilise Google parce qu’il ne sait pas que les bibliothèques existent devrait pouvoir tomber sur nos données. Celui qui cherche un truc précis et rare, même si c’est au bout du monde, devrait pouvoir le trouver très vite. Celui qui veut dépouiller intégralement un fonds ou une partie de collection devrait pouvoir le faire. Ce ne sont que quelques exemples.
Non, il n’y a pas un « consommateur » type du catalogue unique et indivisible. Il y a des usages, multiples, différents, et aucun outil miracle ne saura tous les contenter. Il faut des données fiables et souples, qu’on peut sortir, transformer, adapter, réutiliser. Pour moi c’est ça le futur du catalogue.

(Je me suis emportée, là, mais j’ai encore plein d’idées que je mettrai dans d’autres billets. Et vous ?)

Le Chat du Cheshire

– Et vous, vous faites quoi ?

– Moi, déclara fièrement le Chat, je suis le Bibliothécaire.

– C’est vous qui gérez tous ces livres ?

– Absolument. Vous pouvez m’interroger sur n’importe quoi.

Devinez de quoi c’est tiré ! (Attention, il y a un indice quelque part dans la blogosphère bibliothéconomique ;-)

Mise à jour :

Bravo aux gagnants. Il s’agit bien de Délivrez-moi, de Jasper Fforde, où le chat du Cheshire (qui est bien ce personnage d‘Alice aux pays des merveilles au départ) joue le rôle de bibliothécaire dans la Grande Bibliothèque, celle qui contient tous les livres jamais écrits (y compris ceux qui seront écrits et ceux qui ne seront jamais publiés). A lire absolument.

Dernier billet

Ceci est mon dernier billet.

Avant une semaine parce que là, je pars en vacances. (Quoi, comment ça on est plus le 1er avril ?) J’ai l’impression que ça a passé super vite depuis les dernières.

J’espère que quand je reviendrai ce sera le printemps, il fera beau, il y aura un paquet de figues sur mon bureau (ah non, ce voeu là est déjà réalisé … Merci l’Inconnu !) et plein de beaux sujets bibliothéconomiques et numériques à partager ensemble.

En attendant, je vous laisse avec cette excellente citation de Lorcan Dempsey :

L’URL est la monnaie du Web. Pour que quelque chose puisse être référencé, évoqué ou partagé dans le contexte du Web, il faut avoir une URL.

Il disait cela au sujet de Wikipedia, expliquant qu’un des succès de cette encyclopédie réside dans le fait qu’elle est une base de connaissance « adressable ». Citable. Et tant pis pour les problèmes d' »autorité ».

MPEG21 DIDL, en détail (3e partie)

Après avoir évoqué MPEG21, et quelques généralités sur MPEG21 DIDL, entrons maintenant dans le vif du sujet, en nous intéressant au modèle de données de la Déclaration d’objet numérique.

Je parlais de quatre « niveaux », il s’agit en fait bien sûr d' »entités », et il y en a bien plus de quatre. Pour que ce soit plus clair, je propose de les regrouper par fonction.

D’abord, il y a les entités de structure. Ce sont les quatre que j’ai citées : container – item – component – resource. J’y ajouterai également anchor et fragment, vous allez voir pourquoi.
Item est l’entité centrale du modèle, puisque c’est celle qui correspond au Digital Item c’est-à-dire au niveau qu’on envisage de manipuler.
Container est, comme son nom l’indique, un conteneur. Il peut contenir d’autres conteneurs et/ou un ou plusieurs items, mais il ne peut pas exister s’il n’y a pas d‘item dedans. Le conteneur est en principe constitué de manière logique (pour rassembler des items) et il est optionnel.
Les items sont constitués de components qui eux-mêmes contiennent des resources. Un composant ne peut exister sans un item. Il contient la resource et ses métadonnées associées, métadonnées qui ne doivent pas être descriptives à ce niveau (uniquement techniques ou assimilé). Les resources sont des objets numériques physiques qui disposent d’une adresse pérenne.
Enfin anchor et fragment servent à pointer sur une partie à l’intérieur d’une ressource.

Les entités de description sont les deuxièmes plus importantes du modèles, surtout descriptor. Celui-ci est une enveloppe de métadonnées qui peut être associée à un item, un component ou une ressource.
Dans ce descriptor on trouve un statement qui correspond à l’énoncé de l’information.
A ce stade, le modèle n’est pas très directif sur la façon d’utiliser ces enveloppes de métadonnées. On sait juste, comme dit plus haut, qu’il vaut mieux mettre le descriptif au niveau de l‘item et le technique au niveau des ressources.
On peut rajouter ici annotation, qui est une information sur une entité dont la particularité est de ne pas avoir d’impact sur ladite entité.

Après, il y a les entités de choix et là excusez moi, mais je ne vais pas m’étendre car c’est terriblement compliqué. En gros on peut rendre un item conditionnel en fonction de conditions et de prédicats, auxquels on attribue des sélections et des assertions.
Ce genre de trucs doit permettre de gérer des droits d’accès ou de faire de la négociation de contenu. Cela ne m’intéresse pas vraiment ici.

Pour finir, on va donc combiner ces différents éléments pour obtenir la Déclaration complète. C’est ce qui est exprimé dans la figure ci-dessus (cliquer pour agrandir). Les containers contiennent des items, qui eux-mêmes contiennent un ou plusieurs components, qui eux-mêmes contiennent une ou plusieurs ressources. Les métadonnées sont accrochées à deux niveaux : celui de l‘item et celui du component.
Cette méthode permet d’exprimer des granularités et des structures d’objets. Celles-ci sont entremêlées avec leurs descriptions, contrairement à METS qui sépare les métadonnées et l’organisation des ressources.
A mon humble avis, un tel modèle paraît assez satisfaisant conceptuellement, mais soulève de grosses difficultés d’implémentation. Je ne sais pas si j’irai jusqu’à parler de ça, parce que la semaine prochaine je suis en vacances :-)

Source : la norme partie 2 – DID (attention fichier PDF zippé)

NISO et les identifiants

Dans Newsline la lettre d’information du NISO (agence de normalisation américaine), on trouve ce mois-ci un rapport sur les identifiants. Celui-ci est le fruit d’un workshop qui s’est tenu le mois dernier à la National Library of Medecine.

Il y a plein d’informations sur la compréhension qu’on peut avoir aujourd’hui du rôle des identifiants pérennes, sur le Web et ailleurs, et quelques pistes sur ce qu’il serait intéressant de normaliser dans ce domaine.

Je vous le recommande chaudement.

Introduction à MPEG21 (1e partie)

L’adepte de METS que je suis (et je fais sans arrêt des émules) a enfin décidé, par honnêteté intellectuelle, de s’intéresser un peu aux autres formats qui remplissent la même fonction, à savoir décrire tous les aspects d’un objet numérique complexe. J’ai donc commencé à regarder MPEG21 DIDL. Je débute, alors si vous avez des précisions, des corrections ou des remarques, n’hésitez pas.

Avant de s’intéresser à MPEG21 DIDL, un petit aperçu de ce qu’est MPEG21 ne peut pas faire de mal. Alors allons-y, en avant, vers l’infini et au-delà !

MPEG21 est un cadre (framework) de représentation des objets numériques basé sur un ensemble de modules indépendants. Normalisé par l’ISO sous le charmant petit nom de ISO/IEC 21000, ce cadre comprend à l’heure actuelle les parties suivantes :

  • 1 – Vision, Technologies and Strategy
  • 2 – Digital Item Declaration (oui, oui, c’est celui-là qui nous intéresse)
  • 3 – Digital Item Identification (oh ! des identifiants !)
  • 5 – Rights Expression Language (oh ! des droits !)
  • 6 – Rights Data Dictionary (oh ! encore des droits !)
  • 7 – Digital Item adaptation
  • 8 – Reference software
  • 9 – File format
  • 10 – Digital Object processing
  • 11 – Evaluation Tools for Persistent Association Technologies (Technical Report)
  • 12 – Test Bed for MPEG-21 Resource Delivery (Technical Report)
  • 15 – Event Reporting
  • 16 – Binary Format

Non, je ne yoyote pas complètement, j’ai sauté des numéros mais c’est exprès. Sont en cours d’élaboration :

  • 4 – Intellectual Property Management and Protection Components
  • 14 – Conformance Testing

La partie 13 (scalable video coding) semble avoir été abandonnée.

Certaines de ces parties sont publiques et on peut les télécharger sur le site de l’ISO. Ce sont les parties 1 et 2 (ça tombe bien, la notre est dedans). Les autres peuvent être acquises auprès de l’ISO pour une modique somme comprise généralement entre 50 et 150 euros par partie, et c’est pourquoi je n’en parlerai pas dans le détail.

Toutefois, si on regarde rapidement tous ces morceaux, en particulier tels qu’ils sont décrits dans la Partie 1 (« vision etc. »), on peut quand même faire quelques observations dans les grandes lignes :

  • MPEG21 a pour objectif de donner le cadre d’un bon niveau d’interopérabilité dans la diffusion de documents multimédias. Ca inclut même une réflexion sur les types de terminaux (PC, mobile etc.), sur la différence entre une bande-annonce et un film en haute résolution… ça va assez loin.
  • logiquement, suite au point précédent, MPEG21 s’intéresse beaucoup aux droits : déclaration de droits, référentiel de droits… Malheureusement, la partie qui serait la plus intéressante, la normalisation de la gestion des droits elle-même, des DRM si vous voulez, n’est pas finie;
  • MPEG21 s’intéresse aussi pas mal aux questions techniques, avec une partie sur les logiciels de référence et une sur les formats de fichier ; au-delà des besoins immédiats (faire fonctionner correctement des formats complexes sur des plateformes appropriées), on devine qu’en terme de gestion conforme à l’OAIS sur le long terme, cela pourrait être intéressant.

La notion de Digital Item est au centre de la norme ; il s’agit de définir l’élément qui doit être géré, manipulé, décrit, échangé, etc au sein de tout système où des gens (users) entrent en interaction avec des objets numériques. Le Digital Item est donc un niveau de granularité préférentiel.
En pratique, un Digital Item se compose de trois ingrédients :

  • des ressources (c’est-à-dire, des fichiers numériques)
  • des métadonnées
  • une structure.

C’est pour décrire toutes ces choses de manière formelle qu’on a créé le DID et le DIDL. La Déclaration d’Objet Numérique (DID) est une description d’un objet à travers ces trois composantes. Elle est représentée sous la forme d’un fichier XML, grâce à DIDL. Ce qui confirme une intuition que j’avais au départ : tout cela n’a rien à voir avec les souris !

A suivre

Source : MPEG21 part 1 (fichier PDF zippé).

Introduction à MPEG21 : DIDL, en gros (2e partie)

Après avoir étudié la place de DIDL dans MPEG21, nous allons pouvoir nous intéresser à la partie 2 de MPEG21 : la Déclaration d’objet numérique (DID).

Cette déclaration se compose de trois parties :

  • le modèle (DID, en conceptuel)
  • la représentation (DIDL, expliqué de façon pratique, élément par élément)
  • le schéma (le schéma XML de DIDL lui-même).

Avant d’entrer dans le détail, je voudrais énoncer quelques caractéristiques de MPEG21 DIDL (par rapport à METS – pour un update rapide sur METS voir et ):

  • Il dispose d’un modèle de données abstrait. Ca veut dire qu’ils ont modélisé avant d’implémenter, ce qui est plutôt rassurant à priori. Ca veut aussi dire qu’il sera plus facile de changer la méthode de représentation du modèle si nécessaire (par exemple pour passer de XML à RDF). Pour l’instant, le modèle abstrait s’exprime sous la forme d’un schéma XML ; c’est ce schéma qui s’appelle DIDL.
  • Il ne propose pas une carte de structure pour décrire un objet, la structure est inhérente au fichier de métadonnées. En fait, le modèle décrit 4 niveaux : container – item – component – resource, et à chacun on peut associer des métadonnées (descriptor). Ces niveaux peuvent tous être combinés et imbriqués. La façon dont on imbrique ces niveaux correspond à la carte de structure.
  • Il met l’accent sur des machins qui sont particulièrement utiles dans le domaine de l’industrie multimedia (pour laquelle il a été conçu) : la gestion des droits et l’association d’exécutables. Pour cela, il peut utiliser d’autres modules définis dans MPEG21, comme REL.
  • Il définit un système d’identifiants complexe, qui est lui-même un module de MPEG21 nommé DII. Ces identifiants permettent notamment de faire des liens entre les métadonnées et les entités d’une instance DIDL, mais pas seulement. Alors que dans METS, l’identification des différentes parties est souple bien qu’obligatoire, ici elle est plus précisément définie. Ce mécanisme est explicitement destiné à reexploiter les identifiants de l’industrie de l’audiovisuel (ISRC, ISMN pour ceux à qui ça parle).

Quand même, quelques points communs avec METS :

  • On peut mettre les ressources dans DIDL « par valeur » ou « par référence », c’est à dire soit directement dans les métadonnées en XML ou en base 64, soit sous forme d’un lien vers un objet qui est stocké ailleurs.
  • Les métadonnées ça ne se fait pas tout seul ; il faut compléter le modèle avec des schémas de métadonnées spécifiques. Ceux qui existent sous forme de modules de MPEG21 sont prévus. Ceux qu’on voudrait ajouter en plus, on peut le faire en utilisant les espaces de nom.

Dans le monde des bibliothèques numériques, les principaux adeptes de MPEG21 DIDL sont Herbert Van de Sompel et ses amis du LANL. Ils se sont amusés à le rendre OAIS compliant et pour cela, ils ont un peu plié le modèle… en particulier pour la partie qui concerne l’association d’exécutables.
Ils ont notamment rajouté un moyen d’exprimer des relations en RDF dans les métadonnées descriptor, de façon à ce qu’on sache précisément ce qui est une partie de quoi (isPartOf) ou encore ce qui décrit quoi (isMetadataOf).

Voilà pour DIDL en gros. Si vous vouliez juste une vue d’ensemble, cela devrait suffire ; si vous voulez en savoir plus, je vous propose de continuer avec moi et étudier DIDL en détail, dans un autre billet.

Mes principales sources pour ce billet :

La corde raide

Caveat Lector a un billet dont je me sens si proche que je ne résiste pas à l’envie d’en traduire quelques passages.

Marcher sur la corde raide entre le blogging professionnel et personnel peut parfois sembler franchement suicidaire. Cela complique aussi des choses simples, comme "est-ce que je mets l’URL de mon blog dans une liste que je fais pour un site de bibliothèque ?" (…)
Et pourtant, CavLec n’apparaîtra jamais sur mon CV. (…)
C’est là que se situe la limite du bloguer-ou-ne-pas-bloguer. Je parle de ma profession sur CavLec. La plupart du temps, je ne parle pas de mon travail, à part dans la mesure où j’exerce ma profession en faisant mon travail. (…)
Préserver cette limite protège certaines libertés qui me sont chères. L’une d’entre elles est la liberté d’être stupide, de ne pas me prendre au sérieux, de ne pas prendre mon travail au sérieux, de ne pas prendre la profession au sérieux.

Mes excuses à l’auteure de ce très bon texte, pour la probablement piètre traduction impropre à rendre l’humour auquel elle tient tant.
Il faut le lire dans le texte et en entier.