Les métadonnées de l’espace

Le CNES a mis en ligne les interventions d’un atelier qui a eu lieu à Toulouse le mois dernier sur le thème des métadonnées. Au programme : la confrontation d’acteurs issus de mondes différents et qui se posent les mêmes questions.

C’est vraiment intéressant de voir comment tous les gens qui gèrent des données, et donc des métadonnées, se trouvent confrontés aux mêmes problématiques : l’intéropérabilité, la normalisation, la modélisation, les interfaces d’accès, l’adéquation de la description aux besoins des utilisateurs… On constate aussi que tout le monde a recours aux mêmes technologies et aux mêmes architectures pour gérer ses métadonnées au sein d’un système, le tout reposant sur des modèles comme l’OAIS.

Parmi les interventions pour la plupart très orientées sciences dures et en particulier sciences de la terre au sens large, on trouve quand même un papier sur les archives numériques par un archiviste de la Direction des Archives de France, et un autre sur les métadonnées en bibliothèque et sur METS, par votre serviteuse ;-)

Outils d’extraction de (méta)données

Aujourd’hui, je me suis beaucoup amusée avec deux de ces merveilleux outils qui permettent de rentrer un ou plusieurs fichiers, et de sortir complètement autre chose (en général, du XML, sinon où est l’intérêt…) Je trouve cela particulièrement réjouissant.

MARCXML converter est comme son nom l’indique un convertisseur de fichiers MARC (en sortie ISO 2709) en xml suivant le schéma MARCXML. Evidemment, il faut des notices MARC21 en entrée, sinon ça marche pas.

Dans un autre genre, la National Library of New Zealand propose en téléchargement son Metadata extraction Tool en version stable. Mais à quoi cela sert-il, me direz-vous ? Cela sert à extraire les données contenues dans les en-têtes de fichiers TIFF, JPEG, PDF, BMP, Open Office, Word, et bien d’autres. Mais à quoi cela sert-il, me direz-vous encore ? Parmi ces informations, on trouve un certain nombre de données sur le fichier (son auteur, sa date de création, etc) ainsi que des données techniques nécessaires pour la conservation à long terme (le format, la taille, etc) – l’objectif de la NLZ. Grâce à l’outil d’extraction, on peut obtenir des sorties en XML de ces données, pour un fichier ou pour plusieurs à la fois (ce qu’on appelle les objets complexes). Apparemment il est assez simple de changer le schéma XML de sortie pour mettre celui qui nous fait plaisir, ce qui fait de cet outil une vraie perle.

Tous deux fonctionnent avec une machine Java récente et doivent être installés (mais ils sont faciles à utiliser et à installer sous Windows).

Dans le genre outil magique, il y a aussi le Servoo qu’utilise Lodel pour convertir les fichiers Word ou Open Office en XHTML, et en plus, lui, il fait ça en ligne à distance ! Mais à force que tout le monde en parle, ça commence à se savoir.

Confiture de métadonnées

Voilà, faut que je vide mon aggrégateur de tous les liens intéressants qu’il contient. Une subite angoisse de la page blanche me saisit. Ou plutôt de l’écran blanc. Toutes ces choses que je n’ai pas eu le temps de lire, prise que j’étais par ma cueillette de pommes, de coings, de citrouilles, de noix et de pêches…

J’ai donc décidé de procéder méthodiquement.

En commençant par le moins lourd, à savoir les métadonnées. J’ai seulement deux liens :

Donc je le repête, ne me demandez pas ce que ça raconte, j’ai pas eu le temps de lire encore.

A part ça, pour ceux que ça intéresse, j’ai craqué, j’ai encore racheté des figues pour faire de la confiture, il faut dire que j’étais tombée sur une recette de confiture pêche-figue et que j’avais plein de pêches dont je savais pas quoi faire. Elle a l’air bonne même si elle a pas trop bien « pris ».

Ah oui, merci à Ressource Shelf et à Catalogablog pour l’info (oui, je sais, c’est toujours les mêmes, c’est pas de ma faute s’ils sont intéressants).

Marc et les métadonnées

Il arrive parfois que nos amis les blogueurs américains mentionnent des articles dans des revues en ligne payantes. En général, il ne nous reste alors plus qu’à baver lamentablement devant les sommaires et les résumés.

Pour une fois, Emerald fait un beau geste, et nous met en libre accès trois numéros de ‘Library High Tech News », dont deux sur le thème "MARC and metadata" (suivre le lien puis "table of content").

Il y est notamment question de l’évolution des formats MARC vers les métadonnées, des rapports entre MARC et EAD, de METS beaucoup, de l’avenir des bibliothécaires et de tout plein d’autres choses. Je ne peux hélas pas en dire plus, ne l’ayant pas encore lu. Mais ça promet.

XML, métadonnées et autres

Il y a peu j’ai découvert les dossiers Educnet, qui sont des mines de ressources mises à jour. On en trouve notammment un sur les métadonnées et un sur le XML. De bons points de départs pour commencer à creuser un sujet.

Sur le même sujet vu à travers une autre lorgnette, le W3C organise à Dublin une rencontre sur l’utilisation des métadonnées de contenu: c’est-à-dire, si j’ai bien compris, les métadonnées contenues dans le balisage des documents lui-même. On va y parler beaucoup de XML, de XHTML et de RDF : affaire à suivre.

Puisqu’on parle de Dublin, parlons de Dublin Core (ce qui n’a rien à voir comme nous le savons), et même du "Dublin Core library application profile" : c’est quoi cette chose ? Un profil de référence qui donne quelques clefs pour utiliser le Dublin Core en bibliothèque de manière cohérente (lire : intéropérable). Son petit nom c’est DC-lib et une version brouillon vient d’être soumise à commentaire. Ce "profil bibliothèque" définit notamment :

  • les éléments obligatoires
  • les éléments et les qualificatifs autorisés
  • les schémas autorisés (vocabulaires contrôlés…)
  • les éléments additionnels venant d’autres espaces de noms spécifiques aux bibliothèques
  • des éléments provenants d’autres profils potentiellement utiles
  • une définition plus fine de chaque élément.

Merci à Formats ouverts, Fred Cavazza, et à Catalogablog pour ces informations Xtrêmement utiles.

Pour ou contre… les métadonnées

C’est sûr, dit comme ça, ce n’est pas terrible. En d’autres termes, les bibliothèques ont-elles besoin des métadonnées pour vivre…

Pour Roy Tennant, qui nous gratifie d’un article à ce sujet, cela ne fait pas l’ombre d’un doute et il serait temps de les inclure dans les formations bibliothéconomiques, en particulier pour les catalogueurs.

Pour Catalogablog, les bibliothèques se débrouillent fort bien avec le format MARC.

Si vous avez fait vite, vous en saurez plus sur la fin du catalogage (?!) grâce à une journée de Mediadix prévue en octobre (déjà plus de places !)

Sinon, il est toujours possible de se consoler avec un gros diaporama en PDF publié par l’INIST dans le cadre des rencontres 2004 des professionnels de l’IST, où il est question essentiellement de Dublin Core, mais aussi de RDF, RSS, et bien d’autres.

A suivre…

Bibliographie

Petit voyage de l’autre côté du miroir avec la découverte de deux blogs (ou trucs qui ressemblent) consacrés aux technologies de bibliographie : bibliophile et darcusblog.

On y parle de normes, de métadonnées, de logiciels, de description bibliographique… tout comme chez nous, mais du point de vue de celui qui récupère les notices, pas de celui qui les crée.

Pour ma part, faisant encore partie à mes heures de ceux qui recueillent des références pour faire des bibliographies, je trouve aussi que rien ne vaut un bon petit blog-notes ;-)

Valse bibliothéconomique

Pour ceux d’entre vous qui ne seraient pas encore partis voir le feu d’artifice au bal des pompiers, voici une petite confiture de ressources bibliothéconomiques, sans grand rapport entre elles.

Pour comprendre le jargon du métier, en anglais : ODLIS (pour Online Dictionary for
Library and Information Science), et en français mais pas en ligne (on ne peut pas tout avoir), le Vocabulaire de la documentation de l’ADBS.

Côté blogs, l’Unesco a mis sur son portail une liste de blogs bibliothéconomiques, pas seulement en anglais (ça change).

Enfin, une petite ressource NISO (en pdf) : comprendre les métadonnées, ou tout ce que vous avez toujours voulu savoir sur DC, TEI, METS, MODS, EAD, ONIX et bien d’autres, résumé en 20 pages (un document qui s’adresse peut-être plutôt aux "décideurs" qu’aux gueux qui ont les mains dans le cambouis, m’enfin on sait jamais, ça peut servir…)

Merci à RessourceShelf, à Juriblog et à It’s all Good d’aider à occuper les tristes jours fériés, car comme disait l’autre, "le jour du 14 juillet, je reste dans mon lit douillet"…

Ce rêve bleu…

Dans le dernier Dlib qui vient de sortir, on peut lire un long article en forme d’appel à contribution, intitulé Search Engine Technology and Digital Libraries : Libraries Need to Discover the Academic Internet. Le titre l’annonce : il s’agit de capitaliser la technologie des moteurs de recherche, assez avancée (on avait remarqué), pour l’appliquer aux bibliothèques, numériques ou pas.

L’auteur défend l’idée qu’il serait dans les missions des bibliothèques aujourd’hui de donner à voir le Web « académique » (on dirait plutôt scientifique en français), non pas en répertoriant des sites Web, non pas en faisant de la recherche fédérée avec des métamoteurs dans des bases distribuées, non pas (même pas) en constituant des entrepôts de métadonnées grâce à l’OAI… mais en indexant.

Bref, un autre Google, mais… en mieux, bien sûr, puisqu’il n’indexerait que des ressources de qualité, duement validées, adaptées à la préservation à long-terme, et pourvues de métadonnées surpuissantes d’une qualité inégalée.

Ce moteur de recherche idéal, tenez-vous bien, il est à notre portée. Il suffirait que tous les bibliothécaires du monde se donnent la main…

Sérieusement. Que nous faudrait-il pour réaliser cette grande oeuvre bibliothéconomique ? Tout d’abord, une coopération internationale et des normes fiables et ouvertes, intéropérables ; ça, pas de problème, on sait très bien le faire. La preuve, toutes les bibliothèques du monde cataloguent en format MARC (lequel au fait, Unimarc ? Marc21 ? Intermarc ? Ibermarc ? UKmarc ?) Ensuite, il faudrait s’approprier les technologies actuelles des moteurs de recherche, faire immédiatement le grand bond de 6 ans qu’a parcouru le Web entre sa version « répertoriée  » et sa version « indexée ». Et aussi, pousser un peu le Web sémantique, et le Grid computing, qui ne sont pas encore tout à fait au point pour ce qu’on voudrait en faire. Enfin améliorer l’OAI, cette technique d’échange primitive. Et se faire de la pub, beaucoup de pub.

On s’étonne quand même de ne trouver qu’une ligne sur les moteurs de recherche libres comme mozdex ou Lucene, dont on attend de voir s’ils valent au fond vraiment quelque chose (entre temps, vous prendrez bien une petite solution propriétaire). On s’étonne aussi de ne pas entendre parler de Virtual Library, Vlib de son petit nom, un projet international d’accès au Web scientifique lancé par Tim Berners Lee lui-même, et qui a laissé derrière lui quelques intiatives vraiment intéressantes.

Ah, c’est bon de savoir que nous, bibliothécaires, nous détenons la Vérité, le Pouvoir et l’Avenir. Faîtes de beaux rêves.

Mise à jour :

Catalogues et valeur ajoutée

Aller plus loin avec nos bons vieux catalogues et nos bonnes vieilles classifications, c’est possible. Voici encore deux projets qui le prouvent…

Catalog enrichment initative est un projet piloté par la Library of Congress dont l’objectif est de donner plus de visibilité aux documents hors ligne (aux livres, quoi). On peut se demander pourquoi nos catalogues de bibliothèques ne sont pas capable de fournir la même valeur ajoutée que, par exemple, Amazon. L’idée est d’enrichir nos notices bibliographiques superficielles et descriptives par des informations plus "profondes" telles que les tables des matières des ouvrages. On utiliserait des standards comme MODS, METS ou ONIX pour encapsuler les tables des matières dans les notices, notices qu’on partagerait ensuite dans la communauté bibliothéconomique internationale en utilisant l’OAI. Plus d’infos dans la colonne de Roy Tennant sur Library Journal.

Simile est un projet collaboratif, impliquant notamment le MIT et le W3C, dont l’objectif est d’améliorer l’intéropérabilité des métadonnées en utilisant le Web sémantique. Concrètement, il s’agit de créer des interfaces uniques pour accéder à des ressources hétérogènes, en utilisant RDF et les classifications à facettes pour y naviguer avec un taux élevé de serendipité (traduction peu heureuse mais y en a-t-il une autre…) On comprend bien les enjeux pour les bibliothèques et autres bases de documents numériques, grâce à ce powerpoint qui explique tout ça avec des petites îles, des ponts et de jolies copie d’écran. Très mignon et assez prometteur.

Merci à Catalogablog , deux fois.