Identifiants, versions, hiérarchisation

Prenez un célèbre moteur de recherche dans sa version "scientifique".

Donnez-lui plusieurs versions d’un même article à référencer, issues d’archives ouvertes, de bibliothèques, et du site de l’éditeur.

Donnez-lui un identifiant type DOI qui lui permette d’identifier la version qui vient de l’éditeur.

Demandez-lui de la faire apparaître en premier.

Et surtout, ayez confiance.

Les source est ici et ici.

Tout sur l’OAI

Vous saurez tout sur l’OAI quand vous aurez visité la page du Workshop du CERN intitulé Implementing the benefits of OAI. On y trouve les diapos des intervenants, en powerpoint et en pdf, et même parfois en vidéo.

Notamment, l’introduction intitulée OAI and OAI-PMH for absolute beginners tient ses promesses en faisant le tour de la question avec simplicité et clarté.

Puisque j’en suis à parler d’OAI, je recommande l’article d’Herbert Van de Sompel et alii dans le Dlib du mois dernier (pas le nouveau qui vient de sortir et contient d’ailleurs un autre article sur SRU et l’OAI).

Dans cet article, les auteurs abordent la problématique de l’utilisation de l’OAI quand on veut non pas se contenter d’échanger des métadonnées, mais échanger les ressources elles-mêmes. Parmi les problèmes soulevés, il y en a un qui m’est cher en ce moment : la difficulté de faire correspondre les métadonnées et les identifiants avec la localisation réelle de la ressource. Enfin le propos est d’utiliser l’OAI pour échanger des formats de métadonnées complexes, comme METS et MPEG21, qui permettent à la fois de localiser précisément toutes les parties d’une ressource, et de connaître toutes les modifications qui l’affectent. Le protocole OAI rejoint alors le modèle OAIS, deux standards qui à part ça et malgré leur ressemblance phonétique n’ont rien à voir entre eux.

Merci à Catalogablog.

L’identification pérenne des ressources numériques (4)

Dans les épisodes précédents (1, 2, 3), nous avons vu :

  • les objectifs de l’identification pérenne des ressources numériques
  • les principales fonctionnalités des identifiants
  • les caractéristiques communes aux différents systèmes existants.

Aujourd’hui, je m’attaque à deux compléments indispensables de l’identifiant : le résolveur, et les métadonnées.

Le contexte de l’identifiant pérenne doit permettre de savoir à quoi celui-ci correspond et d’accéder à la ressource elle-même. Pour reprendre une métaphore que j’ai déjà utilisée : si on a votre nom, et qu’on veut vous trouver, il y a deux possibilités. Soit on dispose d’autres informations sur vous : votre photo, votre numéro de téléphone, votre adresse, votre CV ou n’importe quoi d’autre incluant dans le meilleur des cas votre adresse : ce sont les métadonnées. Soit on consulte un annuaire qui va donner l’adresse correspondant à ce nom : c’est le résolveur.

L’un n’exclut pas l’autre évidemment. On peut avoir un identifiant associé à des métadonnées et en plus un résolveur qui va donner l’URL correspondante.

Certains systèmes d’identification pérenne vont demander ou recommander la saisie de métadonnées conjointement avec l’enregistrement de la ressource. C’est le cas par exemple de DOI et de ARK.

D’autres systèmes sont dédiés à l’échange de métadonnées, mais incluent ou nécessitent un système d’identification pérenne pour accomplir leur rôle, qui est de donner accès à la ressource elle-même. Parmi ceux-ci on peut citer le protocole OAI-PMH.

Le rôle du résolveur d’identifiants est de faire correspondre au nom de la ressource son adresse réelle. Le résolveur peut être interne à l’institution qui donne les noms, ou externe et géré par une autorité indépendante.

Pour donner un exemple : la Library of Congress dispose de son résolveur qui fonctionne pour les identifiants DOI et Handle. On dispose d’un identifiant comme : doi:10.1045/january2005-fox, et il suffit de le faire précéder par l’adresse du résolveur pour accéder à la ressource : http://hdl.loc.gov/doi:10.1045/january2005-fox. Notez qu’il s’agit d’une simple fonction de résolution ; la ressource prise en exemple n’a aucun rapport avec la Library of Congress.

Le service PURL d’OCLC est un autre exemple de résolveur assuré de manière externe.

La combinaison du type de résolveur et du type de métadonnées associés à chaque système d’identification vont être un facteur de choix déterminant. Ils constituent le coeur du système, qu’il faut confronter avec les fonctionnalités attendues : par exemple, la possibilité de gérer plusieurs niveaux de granularité, la simplicité des mises à jour, la gestion des versions différentes d’une même ressource, etc.

Et voilà, j’en ai terminé avec cette introduction sur la problématique des identifiants pérennes des ressources numériques. Je rends justice à Diana Dack dont le rapport pour la National Library of Australia, bien que datant de 2001, reste encore largement d’actualité et a été ma principale source d’inspiration (attention le lien ne marche pas bien avec Firefox, il faut IE).

Dans une deuxième phase, il faudrait travailler sur la description de chaque système dans une approche comparative. Je ne sais pas si le Figoblog est le lieu pour faire cela… si vous pensez que oui, exprimez-vous dans les commentaires. Sinon j’en resterai là.

Usages de l’internet

On a pris l’habitude de découvrir les intéressantes études du Pew Internet & American Life Project, qui nous racontent ce que font les gens sur le Web, mais hélas seulement aux Etats-Unis.

Cela vaut donc le coup de signaler quelques pistes pour connaître les usages de l’Internet sur le vieux continent, et notamment ce rapport portant sur le Royaume-Uni. La différence avec les études américaines est assez sensible. Ainsi, vous n’entendrez pas ici parler de blog ou de RSS…

Sur les usages en France, on peut consulter par exemple :

Alors bon, faut mettre un peu de piquant dans nos références…

DRM et libertés individuelles

La Commission européenne a publié un document de travail sur l’impact des technologies de protection des droits de propriété intellectuelle, plus connues sous le nom de DRM.

Selon ce document, les DRM menaceraient les libertés individuelles, en permettant de tracer les utilisateurs. Les DRM ont de plus tendance à dévier l’usage qui est fait des données personnelles : alors qu’elles devraient servir à un contrôle a priori, elle s’étendent à un traçage pouvant entraîner des poursuites en cas d’usage illégal a posteriori. Ces données forment aussi une base d’attaque intéressante pour le marketing – et ça, c’est mal.

Ce qui veut dire que si vous achetez docilement un fichier protégé en disant qui vous êtes, non seulement on va vous bombarder de pub pour que vous continuiez à acheter, mais en plus si vous faites une bêtise, on va se servir de votre acte d’achat honnête pour vous tomber dessus. Vive la technologie.

Tout est très bien expliqué, en français en plus, sur le blog de Luc Saint-Elie. Merci à Tristan.

L’identification pérenne des ressources numériques (3)

Dans les épisodes précédents (1 et 2), nous avons vu que définir un système d’identification pérenne de ressources numériques passait par le choix d’un certain nombre de propriétés et de fonctionnalités du système.

Ceci étant posé, l’heure est maintenant venue de faire un choix parmi les sytèmes d’identification pérenne existants aujourd’hui sur le Web.

Si on essaye de faire une typologie des différents systèmes, on se trouve bien en peine de trouver un critère qui permette de les classer tous. En fait, il y a plusieurs critères à prendre en compte, parmi lesquels on peut citer :

  • l’indépendance : il y a les systèmes où les identifiants sont donnés par le créateur de la ressource, et les systèmes où ils sont donnés par un tiers
  • l’unicité : il y a des systèmes qui garantissent l’unicité seulement au sein d’un système, d’autres qui la garantissent de manière totale et mondiale à l’échelle du Web
  • la structure : il y a des systèmes qui attribuent des identifiants opaques, ou aveugles, et d’autres qui donnent des identifiants signifiants
  • etc.

Je pourrais continuer comme ça presque indéfiniment. En fait, ce qu’il faut retenir, c’est que la plupart des systèmes combinent ces différents aspects à différents niveaux. Le choix va être difficile car il n’existe pas de critère de différenciation clair et net. Ils ont chacun leur façon de concevoir les choses, de les organiser.

Il est donc plus constructif de partir, non de leurs différences, mais de leurs points communs.

Les systèmes d’identification pérenne utilisent généralement tous une structure en trois parties de type :

SCHEME – NAMING AUTHORITY – NAME

Le « scheme », c’est un préfixe qui permet d’identifier le système dans lequel l’identifiant est unique. Par exemple, OAI, ARK, URN:NBN…

La « naming authority » ou autorité nommante, c’est une organisation qui a reçu, de l’autorité centrale en charge de définir le système, l’autorisation et le pouvoir d’attribuer des identifiants. Cette autorité peut être désignée par son nom, par un code attribué au sein du ssytème, par un code ou un nom codé qu’elle détient par ailleurs (comme un nom de domaine), etc.

Enfin, le nom, c’est une chaîne de caractères qui identifie la ressource de manière unique, au sein de ce système et pour cette autorité. En général, l’autorité nommante peut se retrouver assez libre de la façon dont elle structure ses noms, tant qu’elle garantit leur unicité en son sein. Elle peut aussi déléguer à une sous-autorité l’attribution de noms dans un domaine plus petit.

On voit bien comment, dans un seul identifiant, les critères que j’ai cités plus haut peuvent s’imbriquer : suivant l’existence et la nature du « scheme », l’unicité est garantie à une échelle plus ou moins importante. Suivant la façon dont l’autorité nommante est codée, cela détermine son degré d’indépendance, ou de dépendance à l’égard d’un système ou d’une autorité plus haute. Enfin, la structure de l’identifiant peut varier, au sein d’un même système, en fonction de chaque autorité.

Nous avons donc maintenant notre identifiant, du moins sa structure. Cependant, tout seul et sorti de son contexte, il est inopérant : nous avons besoin de savoir à quoi il correspond. Pour cela, deux types d’outils sont à notre disposition :

  • les résolveurs,
  • les métadonnées.

Je les garde pour la prochaine fois.

505

La Bibliothèque du Congrès annonce qu’elle va désormais enrichir ses notices grâce à la zone 505 (note de contenus formatés). Cette zone MARC sera destinée à des informations générées automatiquement à partir des tables des matières des ouvrages, auparavant simplement signalées par un lien dans la zone 856 (zone de lien justement).

Voilà un moyen simple et automatique, donc sans douleur, pour améliorer la visibilité des notices bibliographiques et leur pertinence à l’égard des contenus. Une initative du BEAT : Bibliographic enrichement advisory team (ça jette comme nom, non ?).

Merci à ResourceShelf.

Intelligence artificielle

Via Sebastien Bailly, je décrouvre le jeu des 20 questions.

Le principe : vous pensez à un objet, un lieu, une chose, un concept. Grâce à une base de connaissance, 20Q essaye de trouver ce à quoi vous pensez en vous posant moins de 20 questions. S’il trouve en plus de 20 questions, vous gagnez sans gloire. S’il ne trouve pas du tout, vous gagnez avec les honneurs…

Ce n’est pas si facile que ça en a l’air. Au début, il trouvait facilement même des choses vagues comme « Internet » ou « une gare ». Après j’ai réussi à gagner sur les mots suivants :

  • bibliothèque
  • catalogue (il m’a proposé : « camisole de force » ! ;-)
  • figue
  • amour.

Conclusion : l’intelligence artificielle résiste mal face à un haut niveau de subjectivité !

Puisque je suis dans ma rubrique inutile, visitez aussi :

Photo : dans le vieux Lyon, une arrière-cour due à Philibert Delorme

L’identification pérenne des ressources numériques (2)

On en était à définir les fonctionnalités de notre système d’identification pérenne. Faisons une petite liste de courses (librement inspirée de : RFC 1737 – Functional Requirements for Uniform Resource Names)

Unicité. Un identifiant doit bien sûr être unique pour garantir qu’il désigne une ressource et pas une autre. Mais unique à quelle échelle ? Il y a les identifiants qui sont uniques au sein d’un système, qui conviennent parfaitement pour un usage interne, bien circonscrit. Par contre, quand on se préoccupe de diffusion ouverte, d’échange, de référence, on cherche l’unicité à l’échelle du réseau, donc du monde. La même ressource, située à différents endroits, devrait avoir le même identifiant. Cela peut supposer une organisation plus ou moins centralisée à l’échelle internationale.

Pérennité. La pérennité est la clef de la stabilité de la référence et la principale problématique de l’utilisation des identifiants. Si on ne peut pas se contenter des URL, c’est qu’elles ne sont pas pérennes : si la ressource se déplace, son URL change. On peut comparer cela à une adresse postale : si on ne vous identifie que par votre adresse, et que vous déménagez, on ne peut plus vous retrouver. On identifie plus généralement les gens par leur nom, et ce nom, c’est l’identifiant. En général, la pérennité du système d’identification est garantie par la pérennité de l’institution qui donne les identifiants. Les institutions ou acteurs appelés à durer peuvent ainsi devenir des "autorités nommantes", à l’échelle d’une organisation locale, d’un pays, ou du monde.

Granularité. Les identifiants doivent être applicables à n’importe quelle échelle de la ressource : la ressource elle-même mais aussi la collection dont elle fait partie, les articles qu’elle rassemble, et pourquoi pas, le paragraphe de l’article (ou le commentaire du billet), et également différentes versions d’une même ressource. Il faut donc définir les différents niveaux de granularité de l’information qui doivent être identifiés, et comment cela va se décliner dans le système d’identification : le choix peut aller de l’attribution d’identifiants complètement indépendants à chaque niveau, jusqu’à un système hiérarchisé qui reflète l’organisation de la collection.

Adaptabilité. Les identifiants peuvent être capables d’intégrer des modèles préexistants pour le fournissur qui les utilise. Par exemple, les ISBN et ISSN, les cotes d’une bibliothèque, un système de nommage préexistant utilisé pour les URL ou les fichiers.

Extensibilité. On doit pouvoir les étendre et les adapter au fur et à mesure des évolutions du réseau, des standards du Web, des capacités des navigateurs.

Indépendance. Celui qui donne les identifiants doit pouvoir avoir une complète liberté et un complet contrôle sur ce qu’il fait de son système.

Résolution. Les identifiants doivent fonctionner, autrement dit, être compréhensibles pour un navigateur puisque c’est l’outil que nous utilisons pour parcourir le Web. A l’heure actuelle, les navigateurs ne savent pas interpréter tout seuls les URN, DOI et autres. Ils ont besoin qu’on leur fournisse, quelque part, la correspondance avec des URL : c’est le rôle du "résolveur".

Nous avons donc une autorité nommante mondialement reconnue, qui dispose de la liberté et de l’indépendance nécessaires pour attribuer à des ressources des identifiants pérennes, uniques, et capables de s’adapter à toutes sortes de situations, que les navigateurs interprètent à l’aide d’un résolveur. Il existe déjà, aujourd’hui, un certain nombre de systèmes qui répondent à ces critères. J’aborderai leurs caractéristiques dans le prochain billet.