DOAJ passe à l’article

Le DOAJ est un répertoire de revues en libre accès qui indexe plus d’un millier de titres.

Il vient de lancer, le 3 juin, un moteur de recherche au niveau article (auteur, titre, mots-clef, résumé) qui porte sur environ 270 titres (ceux qui fournissent les métadonnées appropriées). On peut croiser la recherche avec le titre du journal ou l’ISSN pour faire une recherche dans les article d’un titre.

J’ai été un peu en mal d’informations techniques hélas, mais tout ceci semble reposer sur l’utilisation d’OAI et d’OpenURL.

OpenURL : qu’est-ce que c’est ?

OpenURL est un protocole en cours de normalisation qui sert à créer des liens contextuels. Concrètement, il s’agit de lier des métadonnées (par exemple, les références bibliographiques d’un article) à la ressource elle-même (l’article en plein-texte).

Vous me direz, un protocole de métadonnées, très bien, on en a déjà qui fonctionnent parfaitement, OAI par exemple. Oui mais là, il ne s’agit pas d’un simple lien, mais d’un lien contextuel. Pour une ressource (toujours notre article) on connaît le contexte dans lequel elle est citée (la bibliographie qui la cite), décrite (les métadonnées de l’article et qui les a rédigées), utilisée (le lecteur qui la recherche et les droits dont il dispose), et la façon dont on utilise le protocole (quel résolveur, pour obtenir quel service) pour la lier à ce qu’elle décrit (l’article lui-même).

En fait, la norme OpenURL Framework se compose de trois choses

  • le ContextObject : le paquet de métadonnées qui contient les informations sur une ressource et son contexte
  • l’OpenURL proprement dit : un protocole de transport de ces paquets basé sur HTTP
  • le registry qui contient les spécifications des différents éléments constitutifs des ContextObjects et de l’OpenURL.

Qu’est-ce qu’un ContextObject ?

Il s’agit d’un paquet de métadonnées qui décrivent une ressource et son contexte :

  • les métadonnées elles-mêmes (referent)
  • leur source : qui a rédigé ces métadonnées (referrer)
  • l’objet qui contient l’objet référencé par les métadonnées, par exemple la bibliographie où est prise la citation (referring entity)
  • l’utilisateur qui demande le service (requester)

Plus au niveau du protocole lui-même :

  • l’adresse du résolveur de lien utilisé (resolver)
  • le type de service demandé par l’utilisateur, par exemple "obtenir le texte intégral de l’article" (service type entity).

Que peut-on mettre dedans ?

A l’origine, un ContextObject décrit une ressource bibliographique et son contexte. En réalité, on peut y mettre un peu ce qu’on veut… pourvu que les métadonnées soient dans le bon format.

Le format d’origine pour représenter les ContextObject d’appelle Key Encoded Value (KEV) Il repose sur des paires clef/valeur (par exemple : Nom=Paul).

Dans la deuxième version de la norme (OpenURL 1.0), on peut décrire les ContectObjects en XML, avec un schéma associé spécifique : le schéma XML ContextObject Format (CTX).

A cela s’ajoutent des métadonnées supplémentaires, que l’on peut soit inclure directement dans le ContextObject, soit référencer sous forme de lien (on donne alors l’adresse du schéma qu’elles suivent et l’adresse où on peut les trouver).

Les métadonnées stockées dans le ContextObject doivent suivre les formats de métadonnées autorisés, stockés dans le repository : en KEV on dispose de formats pour books / dissertation / journal / patent, et chacun de ces formats possède sa traduction en XML. En outre, pour le XML seulement, s’y ajoutent entre autres MARC21 et oai_dc.

Les métadonnées ajoutées sous forme de lien peuvent suivre n’importe quel schéma pourvu que celui-ci ait une adresse (URI) et qu’il soit dans le même langage que le ContextObject (soit KEV, soit XML, au choix).

Concrètement, comment ça marche ?

Sur cette question, j’ai été éclairée par le JC-blog et par un papier intitulé tout ce que vous avez toujours voulu savoir sur SFX sans oser le demander.
Les étapes sont les suivantes :

  • quelqu’un crée un ContextObject. Par exemple, un éditeur de revues en lignes comme Elzevier. Ou alors, une bibliothèque avec son catalogue.
  • le lecteur voit, à côté de la référence bibliographique, un bouton qui correspond à ce ContextObject.
  • le lecteur clique, aussitôt le ContextObject est envoyé sous forme de requête HTTP à un résolveur de lien, qui analyse les métadonnées, les droits de l’usager et le service demandé.
  • en fonction de ce qui a été spécifié pour l’interface, le résolveur trie les références auxquelles le lecteur peut avoir accès et écarte celles auxquelles il n’a pas accès.
  • en réponse, le lecteur reçoit une liste de liens correspondant à sa demande, par exemple l’article complet chez Elzevier + l’article dans une archive ouverte. Mais pas l’article chez un autre éditeur pour lequel sa bibliothèque n’est pas abonnée.

Mais alors, quelles différences entre OpenURL 0.1. et OpenURL 1.0 ?

OpenURL 0.1 a été créé sur la base d’une architecture développée par un logiciel résolveur de lien nommé SFX. C’est à partir de ce produit qu’a été développée la standardisation du protocole de liens contextuels dans le cadre d’OpenURL.

L’OpenURL 1.0. repose donc en quelque sorte sur un retour d’expérience de l’utilisation d’OpenURL 0.1. La norme ainsi élargie a été spécifiée par un document soumis à approbation par NISO de janvier à mars 2004.

Ce qu’OpenURL 1.0 apporte par rapport à 0.1 :

  • il intègre le XML
  • les notions de « requester », « referring entity » et « service type entity » qui n’étaient pas proprement spécifiées auparavant
  • il supporte plusieurs formats de métadonnées et de nombreux namespaces (parmi lesquels : DOI, identifiants OAI, URN, ISBN, ISSN …), et ce de manière extensible
  • la 2e partie de la norme intègre la spécification du repository qui contient les spécifications des formats de description des objets contextuels (KEV et XML) + les formats de métadonnées autorisés + les namespaces autorisés + les spécifications de l’encodage des caractères + les spécifications des protocoles de transport des données + les « communautés de profils » qui définissent un mode d’exploitation choisi de la norme (il y en 2, une compatible avec la version 0.1 qui utilise KVE, l’autre étendue qui utilise XML).

Il en résulte que OpenURL 1.0 est d’application potentiellement plus large que la précédente car rien ne spécifie que la ressource décrite doit obligatoirement être d’ordre bibliographique.

En conclusion, OpenURL permet à des résolveurs de liens de lier des métadonnées, pourvu qu’elles soient encodées dans un certain format, à des ressources paramétrées, en tenant compte des droits de l’utilisateur et d’autres paramètres éventuels.

L’application la plus évidente est l’interconnexion des bases de données bibliographiques avec les bases de journaux en ligne, qui se fait directement et de manière quasi transparente pour l’utilisateur, grâce à ce protocole. Mais avec la norme 1.0, cette fonctionnalité pourrait être étendue, et il y a d’autres idées à creuser : booster le catalogue, faire des passerelles avec un entrepôt OAI… que sais-je encore.

Ressources

La norme

Publications

Site Web

Classifications appliquées au Web sémantique

Rapidement, avant que ces ressources ne disparaissent sous la pile virtuelle de choses intéressantes que j’amasse en ce moment, voici deux sites intéressants pour les cliqueurs fous qui chercheraient des centaines de liens sur la classification de l’information pour le Web sémantique :

Merci à InfoDesign et à Michel Dumais.

Vers un PDF qui dure

Le PDF d’Adobe est un format de fichier qui permet d’enregistrer à la fois des informations textuelles et graphiques (un mélange de texte et d’image). Il est bien pratique pour conserver en format numérique la mise en page, donc l’intégrité visuelle, d’un document.

Bien que propriétaire (puisqu’il appartient à Adobe), le PDF est devenu un standard de fait. Sa popularité s’est encore accrue avec l’ouverture de ses spécifications : à présent, n’importe qui a le droit de créer des programmes capables de fabriquer ou de lire du PDF, ainsi que de proposer des variantes du format… incluant éventuellement des éléments propriétaires, éxécutables, et pas du tout intéropérables.

C’est pourquoi un groupe de travail s’est donné la tâche de créer une variante de PDF complètement intéropérable, indépendante des plateformes logicielles et matérielles, capable de stocker des métadonnées, et d’encapsuler les informations nécessaires à la lecture des couleurs ou des polices du document. Ce PDF propre à l’archivage se nommera avec justesse PDF/A.

La première version de ses spécifications est annoncée pour début 2005, et une version définitive à la fin de l’année.

Vu chez Marcus Zillman.

Mise à jour :

Métadonnées sémantiques pour les interfaces

Traditionnellement, les métadonnées servent à décrire une ressource, à l’indexer, à la retrouver, à l’identifier, éventuellement à la conserver et la partager. Les métadonnées ont à première vue un rôle austère dont l’utilisateur final se soucie comme d’une guigne.

Heureusement, pour ceux qui trouveraient cette situation ennuyeuse, déjà-vue et même dépassée, il y a le Web sémantique, qui réinvente le concept de métadonnée et surtout ce qu’on peut faire avec, en proposant de les utiliser pour générer des interfaces de navigation.

Ainsi, sur les Boîtes et flèches, on apprend comment gérer des taxonomies (pour les bibliothéconomes, je précise que ce sont des sortes de thésaurus hiérarchiques) et utiliser les métadonnées qui en découlent pour concevoir intelligemment la navigation d’un site.

Infodesign nous fait cadeau sans manières d’un powerpoint (plein d’animations rigolotes) sur les métadonnées. Le diaporama commence sans grande fanfare mais ça vaut le coup d’aller au moins jusqu’à la vue 15 pour découvrir le concept des classifications à facettes.

Lesquelles sont aussi abordées dans un document intitulé Is there a role for traditional knowledge organization systems in the digital age ? et qui explique pourquoi l’indexation plein texte, c’est très bien mais ça ne fait pas tout. Et comment le modèle de la classification à facettes est une preuve que nos bonnes vieilles méthodes d’indexation bibliothéconomique s’appliquent assez naturellement à l’environnement informatique. Merci Catalogablog.

Ce n’était qu’un tout petit aperçu de l’océan d’idées à creuser dans ce domaine, pour cet été, pendant qu’il fera chaud et qu’on se réfugiera loin de la pollution et de la canicule… devant nos petits écrans. Spécialement dédicacé à mon geek bien sûr.

Gestion des droits des documents numériques

La première question (ou au moins, une des premières) à se poser quand on met en ligne des documents, c’est sans doute celle des divers droits, de propriété intellectuelle ou autres, qui s’y rapportent. Aussitôt après vient la question des métadonnées qui expriment ces droits, comment les décrire, sous quelle forme, dans quels buts. Dans le domaine émergent du DRM , il est parfois difficile de s’y retrouver.

Heureusement, la Library of Congress présente : le rapport qui tombe à pic par Karen Coyle.

Ce document sur les Rights expression languages fait le comparatif entre quatre solutions qui permettent d’exprimer des droits en XML : Creative Commons, MPEG21, METS Rights et ODRL. Au passage, il montre les rapports entre ces différents schémas et les modèles open source ou des produits comme ceux d’Adobe.

Ce document pointe les questions à se poser avant de se lancer à corps perdu dans la description juridique : ces métadonnées seront-elles lues par des machines ou par des humains ? ont-elles un but informatif ou serviront-elles à contrôler l’accès aux documents grâce à des programmes ? agiront-elles au niveau de l’accès au document lui-même, ou au niveau des contraintes d’usage qui limitent l’utilisation du document une-fois celui-ci obtenu par l’usager ? quelle sera leur interaction avec le système plus global de fourniture de documents ?

Bon point de départ lorsqu’on s’intéresse aux métadonnées de gestion des droits, ce rapport donne de nombreuses clefs. Bien qu’il soit très technique, il amène à réfléchir sur les technologies qui viennent de plus en plus se placer entre le lecteur et le document, et peut aider les bibliothèques à se situer dans ce processus.

Tas de métas

NISO, l’association américaine de normalisation, a mis en ligne les présentations de la journée "Metadata Practices on the Cutting Edge", qui s’est tenue à Washington le 20 mai.

Au programme, un remarquable chapelet de métadonnées en tout genre : RSS, MODS, METS, MPEG-21, PDF-A, ONIX, DSpace… tout le monde est au rendez-vous. Les présentations sont en PowerPoint.

J’en profite pour glisser quelques autres ressources métadonniennes :

  • un article de présentation de METS dans Library Journal par Roy Tennant, qui rappelle l’intérêt de ce format standard pour les bibliothèques numériques en particulier et pour les bibliothèques en général
  • le Tutoriel sur la préservation des documents numériques proposé par Cornell (également disponible en version PDF imprimable, ha ha !)
  • des ressources sur les identifiants pérennes, plein de ressources puisqu’il y en a 5 pages en PDF, signalées par Diglet.
  • et enfin, en français dans le texte, un article du dernier BBF sur ONIX (en accès libre mais il faut passer par la page d’accueil pour s’identifier), qui malgré des positions erronées sur Dublin Core, donne une idée de ce qu’est ce format et de son intérêt pour les métiers de l’édition.

Et juste pour le plaisir de donner cette précision, si personne ne parle de Dublin Core, ce n’est pas parce que c’est un format pas intéressant : c’est parce que c’est un acquis !!!

Architecture de l’information

J’ai mentionné trop rapidement la dernière fois l’architecture de l’information, et son site phare, l’AIFIA, qui possède également une traduction française. En creusant un peu, ce domaine semble vraiment digne d’intérêt.

Aussi voudrais-je enrichir les plate-bandes des voisins en ajoutant quelques ressources "IA" notamment sur le Web sémantique :

  • un document qui compare les topic maps avec les autres types de métadonnées
  • un site wiki sur l’IA bourré de ressources, et en plus intelligemment agencé (c’est le moins qu’on puisse espérer…) avec ses index et ses backlinks… et qui, cerise sur le gâteau, recense des blogs sur le sujet
  • une page-ressource assez indigeste mais bien complète sur RDF.

A nous le Web sémantique ! Nous devons toutes ces adresses à nos amis les techie librarians. Mais je m’aperçois que j’ai encore frappé presque dans le tout anglophone, alors pour compenser, je vais rajouter deux blogs sympathiques en français : le blog de Fred Cavazza actuellement en vacances, et AkaSig en français à ses heures.

Enfin, n’oublions pas la phrase du jour :

« L’internet est un navire qui peut nous porter sur les rivages resplendissants, mais il ne faut pas oublier que des requins dangereux nous guettent. »

Et son utile complément (hommage) :

« Il vaut mieux mobiliser son intelligence sur des conneries que mobiliser sa connerie sur des choses intelligentes ».

Modèles conceptuels : à quoi ça sert ?

Modéliser les métadonnées, décrire d’une manière abstraite et conceptuelle un cadre dégagé des contraintes des formats et des langages pour créer la description universelle, tel est le défi un peu fou que se sont lancé, aux antipodes l’un de l’autre, les FRBR et le RDF. Les unes émanent de l’IFLA, l’autre du W3C, c’est dire si leur raison d’être est différente, liée pour les unes à la famille Marc, pour l’autre à XML.

Mais en fait, rien ne nous empêche de décrire une ressource Web suivant le modèle des FRBR. Et rien ne nous interdit d’utiliser RDF pour encoder les métadonnées d’un livre.

Alors, ces modèles conceptuels de métadonnées, concrètement, quand va-t-on les utiliser, et à quoi vont-ils nous servir ? Voici deux exemples d’outils-démo qui peuvent nous aider à en avoir une idée :

  • Fictionfinder est un outil créé par OCLC pour naviguer dans des notices de fiction. On peut y suivre les différentes manifestations d’un récit, les traductions d’une oeuvre ou encore les apparitions d’un personnage dans différents romans.
  • Sesame est une base de données d’interrogation de métadonnées en RDF basée sur un logiciel open source. La démo museum donne une idée de la modélisation en RDF de ressources muséographiques signalées sur Internet, et de la manière d’y naviguer en suivant les métadonnées en RDF. Tout en testant les différents langages d’interrogation existants.

Et pour ceux qui se sentent vraiment trop perdus dans la jungle souterraine des modèles et formats de métadonnées, un conseil : prenez le métro !!!