Quelques trucs

My Library Manual : un guide pour gérer des collections numériques avec le logiciel MyLibrary. La permière partie est assez largement applicable au-delà de ce seul logiciel.

Un arbre de décision pour décider quelles collections doivent entrer dans un entrepôt de préservation. Le système de l’arbre est marrant.

Oxford Journals signe avec Portico, le système d’archivage de Jstor. Auquel adhère aussi Elezvier.

Gérer les risques de votre institutionnal reposritory : cela devrait être la première étape du projet. Beaucoup plus conceptuel qu’il n’y paraît. Je vous raconterai, un jour. Ceci dit, celui-ci me paraît un peu optimiste, pour le coup.

Dossier sur les métadonnées sur bibliodoc. Il y est aussi question d’identifiants.

Just released : RDA

RDA sera peut-être le format de catalogage de demain. Basé sur les FRBR et les FRAR, RDA se donne les objectifs suivants :

  • Fournir un « framework » fiable et souple pour décrire à la fois le contenu et les aspects techniques de tous types de ressources et de documents
  • Etre compatible avec des principes, modèles et standards internationaux
  • Etre utilisable hors de la communauté des bibliothèques, et que des communautés variées puissent l’adapter à leurs besoins spécifiques.

Les descriptions ainsi constituées :

  • permettont de trouver, identifier, sélectionner et obtenir les ressources répondant aux besoins des utilisateurs
  • seront compatibles avec les descriptions en AACR2 présentes dans les catalogues existants
  • seront indépendantes des formats, supports ou systèmes utilisés pour stocker ou communiquer les données
  • seront facilement adaptables aux nouvelles structures de bases de données.

Vous remarquez, je fais un effort, je traduis.

Donc, les specs de ce nouveau format magique sont disponibles pour être commentées jusqu’en avril 2006 :

Je n’ai évidemment pas encore eu le temps de lire cet épais document, d’autant que Catalogablog vient juste de le signaler. Quelques observations au débotté tout de même :

  • le changement de nom semble présager d’un changement paradigmatique (??) dans la façon de concevoir les notices bibliographiques
  • les nombreuses références aux FRBR laissent à penser qu’il y aura expression de relations et donc qu’on va sortir des formats « plats » des bases de données
  • en même temps, ils ne parlent pas de RDF, on dirait que c’est tabou – ça l’est peut-être pour pas faire peur aux bibliothécaires
  • il s’agit d’un modèle qui s’intéresse aux concepts et pas aux formats d’expression des concepts – on fait enfin les choses dans l’ordre ?
  • c’est censé aider à mieux décrire les ressources numériques, ce qui me semble instinctivement être une drôle d’idée mais faut voir.

Je ferai un compte-rendu quand je l’aurai lu (espérons).

Confiture de « pff j’ai pas eu le temps de bloguer cette semaine »

J’ai lu un article très intéressant d’Alain Giffard sur les bibliothèques numériques en général et celle de Google en particulier.

Des gens ont parlé d’identifiants pérennes : sur catalogablog et chez Lorcan Dempsey.

Ca a bougé côté DLF : au sujet du DLF Framework qui a pour objectif de modéliser l’activité des bibliothèques si je comprends ce qu’en dit Lorcan, avec la publication des présentations d’une conférence intitulée Managing Digital Assets, et aussi avec la publication d’un document à réviser sur l’utilisation de MODS pour le patrimoine (via Digitization Blog celui-là).

Ca a bougé côté OCLC : avec la publication du rapport annuel 2005, et celle d’un autre rapport intitulé Perceptions of Libraries and Information Resources, sur les usages et les pratiques, et qui s’inscrit en continuité du 2003 OCLC Environmental Scan: Pattern Recognition vraiment à lire si vous ne l’aviez pas fait à l’époque.

Moi, pendant ce temps, j’étais occupée à aller au ciné, faire une conférence, et rencontrer des vrais gens dans la vraie vie. C’était bien aussi.

Le « paradigme » de Google print ne date pas d’hier

Aujourd’hui, les processus itératifs de production et d’assimilation de l’information sur le Web conduisent souvent à biaiser notre perception temporelle des événements : seules les informations les plus récentes surnagent, les plus anciennes sont noyées et oubliées, ce qui fait qu’on peut facilement (et on le fait) dire tout le temps la même chose sans que ça se voie trop. C’est le principe des blogs, le mien par exemple : ça fait plus d’un an que je répète tout le temps la même chose et il y a toujours des gens pour me lire ;-)

Pour se détendre un peu, je vous propose une petite analyse de textes comparée.

En 1998 : Quelle définition pour les métadonnées. De façon simpliste, on pourrait dire c’est un nouvelle redéfinition du catalogage.
En 2005 : We’ve been managing book metadata basically the same way since Callimachus cataloged the 400,000 scrolls in the Alexandrian Library at the turn of the third century BC.

En 1998 : Ces données qui servent à identifier les documents et à rechercher des informations peuvent être soit créées en tant que telles a priori en accompagnement de la ressource électronique ou elles peuvent être retrouvées et combinées a posteriori par des systèmes de recherche.
En 2005 : Publishers, libraries, even readers can potentially create as many classification schemes as we want.

En 1998 : Une des composantes très importante de métadonnées est l’identifiant unique et permanent de chaque ressource. Ces identifiants qui s’appuient lorsque cela est possible sur les identifiants classiques passifs (ISSN, ISBN) doivent permettre un accès à plus long terme sur le réseau que les seuls URL actuels.
En 2005 : First, we’ll need what are known as unique identifiers-such as the call letters stamped on the spines of library books. (…) the ISBN is a good starting point

En 1998 : A partir d’informations préparées et proposées dans un format universel et révisable on peut toujours rajouter ses propres données dans le même format. C’est l’objectif de l’initiative TEI de faire un format qui soit un format d’édition, de proposition de mise en forme logique de l’information que les chercheurs peuvent utiliser eux-mêmes pour éventuellement ajouter leur propre code pour une exploitation par leur propre logiciel pour du traitement linguistique.
En 2005 : Using metadata to assemble ideas and content from multiple sources, online readers become not passive recipients of bound ideas but active librarians, reviewers, anthologists, editors, commentators, even (re)publishers.

Amusant non ? Evidemment en coupant les citations comme ça on peut faire dire aux textes ce qu’on veut. Mais l’exercice d’une façon générale se vérifie le plus souvent : le soi-disant nouveau paradigme révélé par Google print ne date pas d’hier. Il était au biberon en même temps que Google lui-même…

RDF et les bibliothèques

Ce billet est une réponse au billet de Got . Son blog n’a pas de commentaires, et même s’il en avait, je ne serais pas allée raconter tout ça dedans ;-)

(…) RDF est sans aucun doute une solution prometteuse pour la diffusion, l’exploitation et l’échange des métadonnées, notamment sous la syntaxe XML (RDF/XML). C’est précisément sa raison d’être. Dans le cas de TEF, en particulier, il permettra à terme une exploitation multiple des notices TEF en l’état, sans obliger à les convertir dans un vocabulaire plus répandu comme Dublin Core notamment. Il faudra pour cela associer les notices TEF à un schéma RDF ou OWL qui précisera les relations sémantiques entre les éléments de TEF et, par exemple, les éléments du Dublin Core ou les propriétés des FRBR. Par ailleurs, formaliser TEF en RDF permettra d’expliciter la structure conceptuelle de TEF, notamment le fait qu’une notice TEF porte sur plusieurs entités (la thèse comme texte validé, les éditions, l’auteur, le jury…). Malgré ces atouts, investir dans une solution RDF est apparu comme prématuré. Etant donné les premiers usages prévisibles des notices TEF (échange de notices validées, conversion en DC-OA, en Unimarc), le supplément de complexité apporté par RDF/XML semble superflu tant que les applications et les données RDF ne sont pas plus répandues. En d’autres termes, la formalisation RDF de TEF est souhaitable, mais non prioritaire.

Ce paragraphe, tiré de la recommandation TEF, illustre parfaitement à mon sens la raison pour laquelle RDF n’est pas adopté (ni susceptible de l’être dans les prochaines années) dans les bibliothèques. Il y a toujours quelques précurseurs, comme il y en a eu pour XML, et leur rôle est d’expérimenter ces technologies et d’en faire des applications limitées. Ensuite, selon la pertinence de ces actions, l’industrie s’approprie la technologie ce qui lui donne une chance de se répandre vraiment. Or pour RDF, on n’en est pas encore là.

La réflexion sur RDF n’est pas absente des bibliothèques. Pour l’instant elle tourne essentiellement autour des FRBR, avec une réflexion sur la RDFisation du modèle (cf ce diaporama de Ian Davis), d’ailleurs très intéressante. Le schéma RDF pour les FRBR est proposé par Ian Davis et Richard Newman, ce dernier également auteur d’un projet sur les FRBR et l’annotation des images. Autre piste, la convergence avec le CRM-CIDOC, vaste ontologie du "cultural heritage" c’est à dire du patrimoine. Ceci donne à penser qu’il n’y a pas une manière canonique de RDFiser les FRBR, mais probablement plusieurs pistes possibles dont on peut espérer qu’une initiative sérieuse se dégagera.

D’autres axes de travail sont à noter même s’ils n’abordent pas de manière directe la question de RDF. Ainsi, les anglo-saxons sont en train de travailler sur une évolution du modèle AACR (équivalent plus ou moins de notre ISBD) vers quelque chose de nouveau qui s’appelle RDA. On ne me fera pas croire que la ressemblance des sigles est un hasard, même si RDF n’est écrit nulle part. Pour mémoire, les AACR – ISBD sont des normes qui décrivent le contenu de la description bibliographique et non sa structure ; c’est la sous-couche de MARC. En gros, l’ISBD dit que le titre c’est ce qui figure sur la page de titre, pas que ça doit être codé en 200. Le principe de RDA introduit quelques nouveautés intéressantes, présentées comme particulièrement pertinentes dans le domaine du numérique :

  • la prise en compte de métadonnées techniques en plus des métadonnées descriptives
  • la séparation nette de l’enregistrement des métadonnées et de leur présentation
  • on remarquera qu’en plus de la description et des accès, on a ajouté des relations (tiens donc).

En fait tout cela repose sur les FRBR et les FRAR (équivalent des FRBR pour les autorités).

Dans un autre genre, on lira dans ce très pertinent article du BBF sur Rameau et son évolution, la phrase suivante :

Ce que nous proposons en l’espèce revient, en fait, à construire des « ontologies » (au sens d’organisations structurées de la connaissance) par domaines et sous-domaines, au sein d’une liste d’autorités qui resterait commune, dont le caractère homogène serait préservé, et qui finirait par constituer elle-même une manière d’ontologie encyclopédique, en raison du réseau des liens sémantiques établi entre les vedettes …

A nouveau, on sent comme un appel à RDF (ou OWL), même s’il est ténu.

Donc finalement où est le problème ? Il n’est certainement pas dans la volonté. Des pistes de réflexion existent, mais la mise en oeuvre est une étape ultérieure et il n’y a pas d’application immédiate. L’autre problème c’est que 90% des bibliothécaires n’ont aucune idée de ce que sont les FRBR, et parmi le restant, beaucoup n’ont jamais entendu parler de RDF, ou n’ont aucune idée de ce que c’est et de comment ça marche.
En ce qui concerne la recherche bibliothéconomique et la naissance d’initiatives au sein d’institutions comme l’IFLA par exemple (en dehors de la veille pure, qu’on peut observer sur ce sujet au sein des conférences IFLA depuis 1999 environ), cela reste illusoire tant que RDF n’est pas une composante d’un applicatif immédiat.
Les geeks ont donc peut-être raison de pleurer en disant que RDF va disparaître faute d’être implémenté, mais ils ne réussiront pas à me faire culpabiliser (en tant que bibliothécaire). Notre métier nous impose un certain nombre de contraintes, parmi lesquelles je ne citerai que deux exemples : le poids de la masse documentaire accumulée depuis très très longtemps et en perpétuel accroissement, et celui de 5 siècles (au moins) de descriptions bibliographiques à rétroconvertir. Nous ne pouvons pas nous permettre d’implémenter quelque chose et de recommencer 5 ans plus tard, compte tenu de la quantité de données à manipuler et transformer à chaque fois. Ce poids de l’existant nous oblige à faire un choix entre deux voies :

  • soit développer des formats propres à notre communauté dont on sait qu’ils s’appliqueront à l’existant – c’est ce que nous avons fait avec MARC (je dis nous, mais j’étais même pas née, ou presque) – efficace mais c’est pas ce qu’on fait de plus interopérable,
  • soit fournir l’énorme effort de traîner notre machinerie derrière des formats existants, mais alors, il faut qu’ils aient fait leurs preuves, sinon l’investissement représente une prise de risque trop élevé – ce qui fera de nous des éternels mammouths traînards, mais cela vaut peut-être le sacrifice.

Pour que les bibliothèques puissent s’approprier RDF, il faudrait d’abord que RDF montre ce qu’il sait faire, prouve qu’il est essentiel pour nous aider à faire ce qu’on fait (ou ce qu’on veut faire), qu’il pourra être intégré dans des solutions industrielles par nos chers fournisseurs de SIGB (ou d’autres)… en bref, on n’apprivoise pas un mammouth juste avec des mots ;-) alors montrez-leur, montrons-leur.

PS : en relisant le billet de Got, je m’aperçois que je ne réponds pas vraiment à la question, et qu’on entre dans des débats sans fin du type l’oeuf ou la poule. Pour conclure, je ne remets pas en cause l’utilité de RDF pour représenter les métadonnées. Je dis juste que ce n’est pas évident à appliquer dans notre communauté.

Vrac sur la description des images

Le problème des documents non textuels (images, multimédia) est une des raisons de s’intéresser de près aux métadonnées. Pas de recherche « plein-texte », puisqu’il n’y a pas de texte ; il faut trouver un moyen de décrire.

Si on s’intéresse un peu aux schémas de métadonnées qui permettent de décrire des oeuvres (donc essentiellement des objets graphiques mais plutôt statiques, pas multimédia), on tombe sur CDWA, une norme du Getty, et son schéma XML CDWA Lite prévu pour être utilisé par exemple avec l’OAI.
CDWA prend aussi en compte le VRAcore, avec ses règles de catalogage ou CCO, où on retrouve l’idée de décrire des oeuvres et des images d’oeuvres.
Enfin le CRM est un peu à part, car il ne contente pas de dire comment décrire, il donne toute la modélisation nécéssaire sous forme d’une ontologie. J’en ai déjà parlé.

Côté multimédia, on a plutôt travaillé sur des standards de description automatisée des images, comme la norme MPEG-7. L’idée est de ne pas se contenter de décrire l’oeuvre mais de rentrer dans le contenu, comme on le ferait pour le texte. Sauf que les repères, au lieu d’être des mots, sont des entités temporelles, des formes, des prises de vue, etc.

Côté Web sémantique on n’est pas en reste sur cette idée de rentrer dans les images. Il existe par exemple une ontologie en OWL et RDF pour décrire une région d’une image. Il existe aussi une spec du W3C pour décrire et retrouver des photos avec RDF et HTTP. Et des outils pour encapsuler une description en RDF dans une image.

Pour ces trois derniers liens merci à mon geek, et à catalogablog principalement pour le reste.

Guide EAD

Le manuel d’encodage en EAD (pdf), proposé par le groupe de travail correspondant de l’AFNOR, est en ligne sur cette page de la direction des Archives de France.

Est-il besoin de le rappeler, l’EAD n’est pas seulement un format de description d’archives mais permet d’encoder toutes sortes d’inventaires, surtout quand il s’agit de fonds organisés de manière hiérarchique. C’est souvent le cas des fonds de manuscrits ou d’autres fonds privés déposés dans les bibliothèques. C’est d’ailleurs le format adopté pour la numérisation du Catalogue général des manuscrits des bibliothèques françaises.

A ma connaissance, à part sur ce projet, il n’y a pas encore beaucoup de bibliothèques qui l’utilisent en France, la BM de Lyon méritant quand même d’être citée comme précurseur.

Pour un article de référence sur l’EAD, voir aussi Blogokat.

Deux gros pavés dans la mare

Aujourd’hui, c’est la soirée spéciale préservation du document numérique, et j’ai l’honneur de vous annoncer la sortie de deux gros pavés, au format pdf, respectivement 237 et 138 pages.

Le premier c’est le rapport final du groupe PREMIS : un groupe OCLC/RLG qui avait pour objectif de définir les métadonnées nécessaires à la préservation des documents numériques. Et il y en a beaucoup !!! On peut aussi accéder aux différentes sections séparément.

Le second, c’est une première version de la traduction française du modèle OAIS. Pour mémoire, l’OAIS est un modèle informationnel et fonctionnel qui définit les différentes composantes d’un système global et ouvert de préservation de documents numériques, les actions à mener, et les interactions entre producteur, archiveur et utilisateur. Il est assez complexe et une partie de sa force réside dans la définition de l’ensemble de la terminologie relative au domaine de la gestion des documents numériques. Petite précision, cette traduction est une version en cours de normalisation.