Pêle-mêle dans les cartons, 2

Toujours en plein déménagement, toujours dans les cartons. Voici ce que j’ai relevé d’intéressant dans mon aggrégateur ventru et débordant :

  • le 2005 special 301 report fait le point sur l’efficacité des droits de propriété intellectuelle dans 90 pays.
  • OAI une interview de la directrice d’OAIster et un témoignage sur la génération de métadonnées en Dublin Core avec un outil nommé My META Maker
  • un article dans Ariadne qui compare trois systèmes de gestion d’entrepôts de documents numériques : LOCKSS, EPrints et DSpace
  • des ressources sur la typographie et l’écriture sur le Web : ici et . J’ai bien apprécié ce site.
  • Dans le dernier Journal de l’IFLA il y a un article sur "Copyright Protection as Access Barrier for People who read differently" (p.52).

Bonne lecture et à dans quelques jours.

Submergée

Eh oui, voilà ce qui arrive quand on fait des billets bidons au lieu d’être sérieux, et aussi quand on a des problèmes de connexion à répétition :-( Les choses intéressantes s’accumulent, on n’a pas le temps de les lire, et encore moins de les bloguer.

Bon, je vais essayer de résumer.

Du côté de la Library of Congress, plusieurs infos intéressantes :

  • le rapport Amega sur les applications de génération automatique de métadonnées
  • un autre travail sur l’Access level cataloguing pour les ressources en ligne (???)
  • dans le cadre du NDIIPP, leur groupement national de veille sur la préservation des documents numériques, ils ont mis en place un toolkit ou un modèle d’archivage, dont l’objectif est de fournir une métohodologie pour la mise en oeuvre de l’archivage de documents numériques.

Dans le domaine de la préservation, il y a un questionnaire qui circule, composé d’une seule et étrange question : combien de temps voudriez-vous que votre support de stockage soit capable de durer ? En gros, vos CD, est-ce que vous comptez dessus pour 20, 30, 40 ans ? Vu que le minimum c’est 20 ans, tout ceci me paraît légèrement utopique. J’aurais dit 5.

Bon et puis dernier truc, un outil vient de sortir, le TeiPublisher, qui permet de gérer des collections de documents en XML ou XHTML (pas forcément en TEI d’ailleurs apparemment). Il est basé sur le moteur Lucene et sur la base de données XML native eXist. En open-source, of course.

Pour tout ça, merci principalement à Catalogablog et à Digitization 101.

Edition électronique de textes

J’ai vu passer sur Catalogablog et DigitizationBlog une info sur le site Electronic Textual Editing du TEI consortium, et bien que je ne sache pas trop quoi faire de cette info, j’ai décidé de la ranger ici.

En fait, si j’ai bien compris, il s’agit d’un livre en préparation qui regroupe des articles sur l’utilisation de la TEI. Comme ces gens-là font les choses bien, ils ont préparé le livre en TEI et ils ont mis les articles en ligne.

Ca a l’air intéressant, il y a diverses choses médiévalisantes qui devraient faire plaisir à mon geek s’il ne les connaît pas encore, et aussi des choses sur la façon d’utiliser la TEI : par exemple un article sur les niveaux de transcription qui s’intéresse à la "profondeur" du balisage.

Si vous voulez en savoir plus sur la TEI, vous pouvez rendre visite à Blogokat. Si vous voulez savoir à quoi peut servir la TEI en bibliothèque – où s’arrête la numérisation, où commence l’édition – lisez ça.

Les FRBR, qu’est-ce que c’est ?

Dans le contexte de la société de l’information, beaucoup de gens, et notamment les geeks, pensent qu’ils ont des choses à apprendre des bibliothécaires, car ces derniers ont une certaine expérience dans des domaines devenus clef : le catalogage, la classification, l’indexation. Pour faire ouvert, dites : les métadonnées, le Web sémantique, les ontologies. Ah, je vois une lueur d’intérêt dans votre oeil…

Or, pour gérer des données, ces gens-là (les geeks) travaillent de la manière suivante : ils font de la modélisation, puis des spécifications, et enfin ils implémentent. Nous, pauvres bibliothécaires et catalogueurs, le nez dans le guidon trop souvent, nous avons commencé par créer un format d’implémentation (MARC), s’appuyant quand même sur une norme (l’ISBD). Mais mieux vaut tard que jamais, nous avons fini par faire la modélisation et les spécifications de nos données bibliographiques : ce sont les FRBR.

Les FRBR (Functional Requirements of Bibliographic Records, en français : spécifications fonctionnelles des notices bibliographiques) sont une modélisation conceptuelle de l’information contenue dans les notices bibliographiques.

Comment ça marche ?

Je vais essayer de résumer le contenu des spécifications bien que ce soit un véritable défi.
En gros, les FRBR organisent les différentes composantes de la description bibliographique (les autorités, les accès sujet et les informations sur le document proprement dites) en trois groupes d’entités reliées ensemble par des relations.

Le premier groupe d’entités regroupe tout ce qui concerne les documents et leurs différentes versions. Ces entités sont :

  • oeuvre : une création intellectuelle ou artisitique déterminée (par exemple : Germinal de Zola)
  • expression : une réalisation de cette création intellectuelle (par exemple, la traduction anglaise de Germinal par Roger Pearson)
  • manifestation : la matérialisation d’une expression (par exemple, Germinal de Zola, traduit par Roger Pearson et publié chez Penguin Books en 2004)
  • item : un exemplaire isolé d’une manifestation (par exemple, l’exemplaire de Germinal de Zola, traduit par Roger Pearson et publié chez Penguin Books en 2004, qui se trouve à la bibliothèque municipale de Perpignan).

Ainsi, une oeuvre peut avoir plusieurs expressions (différentes langues, une adaptation cinématographique… encore que dans ce cas on peut considérer qu’il s’agit d’une nouvelle oeuvre) qui elles-mêmes ont plusieurs manifestations (une édition en gros caractères, une version en K7 et une en DVD) composées chacune d’items.
La grande originalité du modèle, c’est la notion d’oeuvre, qui permet de rapprocher par exemple un roman et ses traductions ou adaptations, ce que nos catalogues sont incapables de faire sauf avec un rebond par titre (si le titre est le même) ou par auteur.

Le second groupe d’entités correspond à la modélisation des "autorités", les personnes qui ont une responsabilité dans la création des entités du groupe 1. Il y en a deux sortes : les personnes, et les collectivités.
Ici, ce qui est intéressant, c’est la notion de relation introduite pour marquer la façon dont les personnes interviennent par rapport à l’oeuvre-expression-manifestation-item. Parmi ces relations, on peut trouver celle de production ou création bien sûr, mais aussi, par exemple, celle d’appartenance (pour dire à qui appartient un item).
Encore une fois, ce type de relations (toutes les oeuvres d’un auteur, tous les items qui appartiennent à une bibliothèque, toutes les manifestations produites par un éditeur) existent dans nos catalogues mais dans une forme bridée, guère exploitable sauf par les « rebonds » permis par les notices d’autorité.

Le troisième groupe regroupe des entités qui sont le sujet des oeuvres : concept, objet, événement, lieu. La relation de sujet (par exemple, un événement est sujet d’une oeuvre) peut aussi fonctionner avec le groupe 2 (une personne est sujet d’une oeuvre, dans le cas d’un livre sur Zola) et le groupe 1 (une oeuvre est sujet d’une autre oeuvre, dans le cas d’un livre sur Germinal de Zola).

A quoi ça sert ?

On a pu reprocher aux FRBR d’être très orientées sur la description des oeuvres de fiction et pas très utiles pour le reste. Des applications comme le FictionFinder d’OCLC montrent bien l’intérêt des FRBR pour ce type de documents. C’est néanmoins un constat un peu sévère, pour ma part je pense que cette étape de modélisation aurait dû survenir bien plus tôt et elle aurait décuplé le potentiel de nos catalogues. Elle aurait aussi évité de les figer dans des formes rigides dont ils ont le plus de mal à se défaire.

On peut dire aussi que les FRBR sont un pas fait par les bibliothèques vers le Web et notamment le Web sémantique. En effet, les entités du groupe 3, en les qualifiant de relations entre elles, appelleraient inévitablement les ontologies ; celles du groupe 2 me font penser aux réseaux sociaux et à FOAF ; quant aux entités du groupe 1, elles pourraient apporter une réponse à la publication multiple et à la description des versions dans le domaine mouvant et multiple qu’est le Web.

Enfin, pour mes amis développeurs de logiciels libres, enfin de Lodel, (profitez-en tant que vous pouvez), je les invite à s’intéresser à ces histoires de relations qui vont dans tous les sens, avec des schémas vous verrez c’est mieux… Vous les trouverez dans le rapport final sur les FRBR ou sa traduction française accessible ici.

PS pour Patrick s’il passe par ici : j’espère que j’ai été fidèle à l’esprit FRBRien ; sinon les commentaires sont ouverts !

Technology watch

Deux rapports de veille technologique parus presque en même temps sont à signaler.

Le premier, c’est le "Technology Watch Report 3" de Digicult (attention très gros PDF de plus de 100 pages). Ce rapport examine six technologies jugées esentielles dans les tendances actuelles : les logiciels open source, le traitement du langage naturel, la recherche d’informations, les systèmes de localisation (genre GPS), la visualisation des données, la robotique et la réalité virtuelle.

Au programme : des définitions, le replacement dans le contexte stratégique, les implications en particulier pour les domaines scientifiques et culturels, des explications techniques, des études de cas et des scénarios, des perspectives pour la mise en oeuvre et la faisabilité. Incontournable.

Le second intitulé The large-scale archival storage of digital objects, Technology Watch Report est signé par la British Library et est accessible sur le site du DPC(Digital preservation coalition). Beaucoup moins long mais aussi beaucoup plus spécialisé, il traite de la problématique de la mise en place d’un système d’archivage à long termes de documents numériques dans tous ses aspects : le stockage, l’obsolescence des techniques, les logiciels, les coûts…

Merci à Ten Thousand Years Blog et à Digitizationblog.

505

La Bibliothèque du Congrès annonce qu’elle va désormais enrichir ses notices grâce à la zone 505 (note de contenus formatés). Cette zone MARC sera destinée à des informations générées automatiquement à partir des tables des matières des ouvrages, auparavant simplement signalées par un lien dans la zone 856 (zone de lien justement).

Voilà un moyen simple et automatique, donc sans douleur, pour améliorer la visibilité des notices bibliographiques et leur pertinence à l’égard des contenus. Une initative du BEAT : Bibliographic enrichement advisory team (ça jette comme nom, non ?).

Merci à ResourceShelf.

Contrôle qualité pour l’EAD

Si vous produisez des descriptions en EAD, vous pouvez être intéressés par le nouvel outil proposé par RLG : le EAD Report Card. Cet outil se donne pour objectif de vérifier la qualité des fichers EAD, avec pour critère la conformance avec les recommandations de RLG : EAD best practice guidelines.

Ces guidelines, émises en 2002, avaient pour objectif d’améliorer l’interopérabilité des descriptions en EAD par la désignation d’un "coeur" (core data elements) qui permette de définir un niveau basique d’uniformité entre les différentes applications possibles de la DTD.

L’outil proposé par RLG permet de vérifier la conformité avec ces recommandations à deux niveaux : seulement les éméments obligatoires, ou tous les éléments. Il s’utilise en ligne mais une version téléchargeable, capable de traiter des gros fichiers, est prévue.

Boîte à outils du catalogueur

A tous ceux qui s’intéressent de près ou de loin au catalogage, je recommande ce billet de ResourceShelf qui signale deux très riches ressources pour les catalogueurs :

Il y a plein de liens intéressants à suivre, par exemple dans la partie lectures du premier. Je n’en citerai qu’un dans la masse : What should catalogs do ?, un récapitulatif sur les bienfaits des catalogues bien faits.

C’est très orienté catalogage et pas trop nouvelles techno / métadonnées, ce qui me change un peu de mon ordinaire ; mais pour compenser, on peut aller voir le numéro de Library High Tech sur MARC et les métadonnées (2), gratuit cette semaine.

Les métadonnées descriptives de RLG

RLG vient de publier : "Descriptive Metadata Guidelines for RLG Cultural Materials", un guide de bonnes pratiques pour la soumission de métadonnées descriptives pour Cultural Materials.

Je n’ai pas encore vraiment eu le temps de le lire jusqu’au bout. Quelques observations sur la partie concernant les formats :

  • à peu près tous les formats sont acceptés, en commençant par XML (c’est vague) et MARC (aussi). Et en allant jusqu’aux champs séparés par des tabulations et des virgules.
  • le document semble converger vers une préférence pour les métadonnées les plus détaillées dans leur format d’origine, plutôt que vers un échange basé sur une conversion avec perte potentielle d’information.

Je trouve ces premiers choix assez étranges, pour ma part j’aurais tendance à penser que quand on cherche à faire converger des sources hétérogèmes, une perte d’information descriptive est acceptable au profit de la cohérence du tout.

Je ne peux guère en dire plus pour l’instant mais je pourrai mettre ce billet à jour quand je serai allée jusqu’au bout ;-)

Et si on arrêtait de faire des métadonnées ?

Cet article (pdf) au titre un brin provocateur était arrivé dans mes fils dans le lot nombreux de documents en tous genres sur les métadonnées, et je ne pensais pas m’y attarder plus que ça.

Mais comme il commence par une amusante parabole et que j’adore ça, je me suis laissée prendre par sa lecture, et même intéresser par cette proposition ô combien indécente : et si on faisait un moratoire sur les métadonnées ?

De fait, les idées exposées par l’auteur de cet article ont un côté pragmatique assez séduisant. Le constat est le suivant : le travail élaboré depuis 10 ans sur les métadonnées, notamment avec Dublin Core, MPEG-7 pour les vidéos, et le Web sémantique, est arrivé à un certain plafonnement. On s’aperçoit aujourd’hui (toujours d’après l’auteur de l’article, je précise) que rien ne remplace en performance et en pertinence la recherche plein-texte. Et pourtant, pour ce qui est de la recherche de documents multimédias, on n’a pas vraiment avancé. On sait aujourd’hui que quel que soit le nombre de mots qu’on accolera à une image pour la décrire, il sera impossible d’anticiper tous les usages. Quant aux métadonnées techniques qui sont les seules qu’on extrait automatiquement, elles se révèlent inutiles quand l’objectif est de trouver.

L’auteur propose de valider une bonne fois les acquis puis de cesser de faire des métadonnées, ou plutôt de cesser au moins pour un temps d’aborder la perspective de la recherche d’information à travers la problématique de la description. Il faut trouver d’autres voies.

Ce qui m’a plu dans cet article, c’est la réflexion sur la description de l’image. Quand on s’intéresse de près aux images, on sait très bien qu’aucune description ne peut remplacer notre oeil et notre perception humaine, même hyper-rapide sur un microfilm qui déroule à tout allure, par exemple. Par contre, je suis sceptique quant à la capacité de programmes informatiques à effectuer cette analyse optique à notre place. Il y aurait beaucoup trop de paramètres à entrer, dont certains sont purement intuitifs.

Je reste partisanne, mais je le disais déjà hier, d’outils qui facilitent le « scannage » humain de collections massives d’images : des outils de navigation simples, efficaces, avec des classifications pertinentes plutôt qu’une véritable indexation. Evidemment pour des sons et même des vidéos c’est beaucoup moins évident.