Bloguifiez vos listes

Justement, aujourd’hui, je rentre de week-end (j’étais , sur la photo), j’ouvre ma boîte aux lettres (électronique, cela va sans dire) et je croule sous les messages de listes de discussions diverses et variées. Non pas que ce soit désagréable, hein, mais cela complique la gestion des choses. Par ailleurs, j’ai plus l’habitude de crouler sous les billets dans mon aggrégateur RSS, donc cela perturbe mon environnement cognitif.

J’ai bien essayé quelques solutions ; par exemple, dans Bloglines on peut créer des adresses e-mail, avec lesquelles on s’abonne aux listes et hop, ça arrive dans le paquet "aggrégateur". Mais bon, je n’étais pas pleinement satisfaite : les fonctionnalités de gestion d’e-mail ne sont pas les mêmes que celles des billets, et encore une fois, ça me perturbe.

Et aujourd’hui, je viens découvrir Gmane : un service gratuit qui bloguifie les listes de discussion. En clair, il leur donne une interface qui ressemble à un blog, et un fil RSS. On y trouve par exemple la liste Web4Lib à laquelle je n’avais jamais eu le courage de m’abonner, mais maintenant c’est fait.

Evidemment on peut toujours discuter : est-ce un blog, un faux-blog, un pseudo-blog…

Pour les mordus de RSS, il y a aussi le site LISfeeds qui recense et aggrège tout plein de fils en sciences de l’info – pas seulement anglophones (sauf le mien, snif !)

Tant que j’y suis, je signale la naissance de deux blogs archi, mais alors archi spécialisés (quand je pense qu’il y a des gens qui trouvent qu’on ne comprend rien à ce que j’écris) :

  • OpenURL Bits, un blog qui se consacre à dire du bien d’OpenURL
  • DRM Blog, un blog qui se consacre à dire du mal des DRM .

Merci à Librarian.net, à Zid offline, et à 10kyBlog.

Edition électronique de textes

J’ai vu passer sur Catalogablog et DigitizationBlog une info sur le site Electronic Textual Editing du TEI consortium, et bien que je ne sache pas trop quoi faire de cette info, j’ai décidé de la ranger ici.

En fait, si j’ai bien compris, il s’agit d’un livre en préparation qui regroupe des articles sur l’utilisation de la TEI. Comme ces gens-là font les choses bien, ils ont préparé le livre en TEI et ils ont mis les articles en ligne.

Ca a l’air intéressant, il y a diverses choses médiévalisantes qui devraient faire plaisir à mon geek s’il ne les connaît pas encore, et aussi des choses sur la façon d’utiliser la TEI : par exemple un article sur les niveaux de transcription qui s’intéresse à la "profondeur" du balisage.

Si vous voulez en savoir plus sur la TEI, vous pouvez rendre visite à Blogokat. Si vous voulez savoir à quoi peut servir la TEI en bibliothèque – où s’arrête la numérisation, où commence l’édition – lisez ça.

Extensions

J’ai découvert deux supers extensions pour Firefox à installer d’urgence.

La première c’est MozCC : une extension qui permet de visualiser, dans la barre d’état (en bas de votre navigateur), les termes de la licence Creative Commons du site que vous êtes en train de consulter. Ca marche si le site est sous licence Creative Commons, cela va de soi, et si la licence est correctement encodée dans la page pour être machine-readable.

La seconde s’appelle Dublin Core Viewer, et elle ajoute dans votre barre d’état (même endroit) un petit bouton en forme de logo du DCMI. Si le site possède des métadonnées en Dublin Core correctement encodées elles aussi, le petit bouton devient orange, vous cliquez et les métadonnées s’affichent.

Merci à mon geek et à Catalogablog.

L’information n’est pas connaissance

Quand on fait une recherche dans Google.com, en la faisant précéder par exemple du mot "books", on se voit maintenant proposer l’accès à des références issues de google print, une à trois en général.
Si on clique sur la référence en question, on arrive sur une page de consultation d’un livre, avec au centre, la page où se trouvent les mots cherchés, surlignés en jaune, avec la possibilité d’avancer ou de reculer de trois pages. A gauche, on voit la couverture du bouquin et quelques liens qui permettent de relancer une recherche dans l’ouvrage ou d’aller sur Amazon et dans quelques autres librairies.

Google’s mission is to organize the world’s information

(la mission de google est d’organiser l’information du monde) nous dit-on sur la page de présentation de Google print. Et c’est bien de cela qu’il s’agit, en effet.
Cette recherche plein texte, lancée sur des pages et des pages de livres numérisés, nous permet de faire sortir du lot au maximum trois résultats, quelle que soit la requête. La consultation des mots trouvés donne accès à un ensemble qui fait au maximum six pages.
Somme-toute, qu’a-t-on obtenu par cette requête ? Dans le meilleur des cas, l’information que ces mots figurent dans un ouvrage que vous pouvez par ailleurs acheter. Je vous souhaite de ne pas vous intéresser aux figues (figs) car Google choisira pour vous, au hasard (???), trois livres qui contiennent selon toute vraisemblance des illustrations (figures, abrégé "figs"…)

Il faut relire Borgès et sa fameuse Bibliothèque de Babel, composée de livres tous identiques (410 pages, quarante lignes par page) qui constituent toutes les combinaisons possibles de caractères des 25 alphabets connus. Cette bibliothèque qui contient virtuellement tous les livres possibles, et parmi eux, probablement, le catalogue de la bibliothèque, les hommes cherchent à la comprendre et à y découvrir les phrases qui ont un sens, car

pour une ligne raisonnable, pour un renseignement exact, il y a des lieues et des lieues de cacophonies insensées, de galimatias et d’incohérences.

La bibliothèque de Babel, elle est « éclairée, solitaire, infinie, parfaitement immobile, armée de volumes précieux, inutile, incorruptible, secrète ». Destinée à survivre à la fin de l’humanité, elle brille par son immensité, sa perfection, et son absurdité.

Tout ça pour dire qu’une bibliothèque (qu’elle soit numérique ou non) n’est pas seulement un lieu où on entasse de l’information pour lancer des recherches dessus. Les deux outils essentiels de la bibliothéconomie, que sont la politique documentaire et la classification, permettent de mettre chaque ouvrage dans un contexte particulier. Dans une bibliothèque, un livre ne peut pas être compris s’il est isolé. Par exemple, la présence de Mein Kampf n’a pas le même sens dans la bibliothèque municipale de Vitrolles au rayon "société" que dans une bibliothèque spécialisée dans l’histoire du XXe siècle au rayon "idéologies" (l’exemple est un peu extrême, et bien sûr fictif, mais assez parlant).
La mise en contexte des ouvrages, dans une bibliothèque, est donc essentielle. Cela signifie que l’on ne s’intéresse pas à un livre parce qu’il contient certains mots, mais parce qu’il contient des idées, une argumentation, une analyse, et parce que cette analyse s’articule avec d’autres livres, qui la coroborrent, la contredisent, l’analysent à son tour.

La mission des bibliothèques n’est pas d’organiser l’information, elle est d’organiser la connaissance : celle qui est produite par les auteurs. Et l’organisation de la connaissance permet de donner du sens à la collection, qui elle-même génère à son tour, par l’intermédiaire des chercheurs qui l’utilisent, de la connaissance.

Je terminerai par une citation de T.S. Eliot (Choruses from the Rock, 1934) :

Where is the wisdom we have lost in knowledge?

Where is the knowledge we have lost in information?

Où est passée la sagesse que nous avons perdue dans la connaissance ? Où est passée la connaissance que nous avons perdue dans l’information ?
L’Internet de demain sera-t-il la bibliothèque de Babel ?

Mise à jour :

Vous avez vu ça, chez Libé ils sont d’accord avec moi :

PURL + OAI = POI

Les identifiants pérennes, retour de la vengeance.

Je viens de découvrir, via Catalogablog lui même via Lorcan Dempsey un système d’identifiants pérenne que je ne connaissais pas mais qui en combine deux que je connaissais :

Le système s’appelle POI pour PURL-based Object Identifier.

Les particularités de ce système : on n’a pas besoin d’enregistrer les POI pour chaque ressource, il suffit d’avoir un entrepôt OAI dans lequel les ressources ont des identifiants. On peut ensuite transformer de manière implicite les identifiants OAI en identifiants POI de la manière suivante :

un document qui porte l’identifiant :

oai:mon-nom-de-domaine.org:123456

a l’identifiant POI suivant :

http://purl.org/poi/mon-nom-de-domaine.org/1233456

Evidemment la conséquence de cette petite transformation est que le nouvel identifiant POI est compréhensible par un navigateur grâce au protocole HTTP. Et ensuite on utilise le résolveur PURL pour résoudre les POI et pointer vers les ressources elles-mêmes.

Technology watch

Deux rapports de veille technologique parus presque en même temps sont à signaler.

Le premier, c’est le "Technology Watch Report 3" de Digicult (attention très gros PDF de plus de 100 pages). Ce rapport examine six technologies jugées esentielles dans les tendances actuelles : les logiciels open source, le traitement du langage naturel, la recherche d’informations, les systèmes de localisation (genre GPS), la visualisation des données, la robotique et la réalité virtuelle.

Au programme : des définitions, le replacement dans le contexte stratégique, les implications en particulier pour les domaines scientifiques et culturels, des explications techniques, des études de cas et des scénarios, des perspectives pour la mise en oeuvre et la faisabilité. Incontournable.

Le second intitulé The large-scale archival storage of digital objects, Technology Watch Report est signé par la British Library et est accessible sur le site du DPC(Digital preservation coalition). Beaucoup moins long mais aussi beaucoup plus spécialisé, il traite de la problématique de la mise en place d’un système d’archivage à long termes de documents numériques dans tous ses aspects : le stockage, l’obsolescence des techniques, les logiciels, les coûts…

Merci à Ten Thousand Years Blog et à Digitizationblog.

Le W3C et les identifiants

Le W3C se penche depuis belle lurette sur l’identification pérenne des ressources numériques (dont vous devez avoir sacrément marre d’entendre parler ici à force, mais tant pis).

Il y a eu d’abord les URI (identifiants de ressources), puis les URN(noms de ressources), tous deux dès 1994.

Les URL (localisation de ressources) arrivent après, aussi bizarre que cela puisse paraître pour nous (mais du point de vue modélisation, c’est logique). Le fameux Cool URIs don’t change, document fondateur de la question de la pérennité de l’identification des ressources sur le Web, date de 1998.

Passé le tournant du siècle, on entre dans le Web sémantique et de nouveaux besoins apparaissent en termes d’identification : identifier des choses abstraites, des choses qui ne sont pas nécessairement des pages Web, et qu’elles puissent être identifiées par n’importe qui de façon unique sur le Web. Ces nouvelles réflexions donnent naissance au scheme "tag", une syntaxe simple pour permettre à n’importe qui de nommer de manière pérenne et unique une ressource (ou une personne, un concept quelconque). Les "tag URIs" ont une syntaxe simple qui permet à tout un chacun de générer des identifiants uniques :

tag:mon-nom-de-domaine.org,2005-03-01:nom

Ce genre d’identifiants est utilisé par exemple pour identifier les billets de blogs dans le format Atom.

En ce début d’année 2005, le W3C publie deux nouveaux documents :

  • l’un qui est une nouvelle version des URIs
  • l’autre qui concerne les IRIs (identifiants internationaux), qui ont l’air d’être des sortes d’URIs mais j’avoue que la portée de tout cela m’échappe encore.

Le 16 février 2005, le W3C a donc annoncé qu’il relançait le groupe URI, pour travailler donc sur les URIs et sur les IRIs.

Toute l’histoire est récapitulée ici.

Pour ceux qui auraient l’impression de n’avoir rien compris à ce billet : z’en faîtes pas, c’est normal.

Identifiants, versions, hiérarchisation

Prenez un célèbre moteur de recherche dans sa version "scientifique".

Donnez-lui plusieurs versions d’un même article à référencer, issues d’archives ouvertes, de bibliothèques, et du site de l’éditeur.

Donnez-lui un identifiant type DOI qui lui permette d’identifier la version qui vient de l’éditeur.

Demandez-lui de la faire apparaître en premier.

Et surtout, ayez confiance.

Les source est ici et ici.

Tout sur l’OAI

Vous saurez tout sur l’OAI quand vous aurez visité la page du Workshop du CERN intitulé Implementing the benefits of OAI. On y trouve les diapos des intervenants, en powerpoint et en pdf, et même parfois en vidéo.

Notamment, l’introduction intitulée OAI and OAI-PMH for absolute beginners tient ses promesses en faisant le tour de la question avec simplicité et clarté.

Puisque j’en suis à parler d’OAI, je recommande l’article d’Herbert Van de Sompel et alii dans le Dlib du mois dernier (pas le nouveau qui vient de sortir et contient d’ailleurs un autre article sur SRU et l’OAI).

Dans cet article, les auteurs abordent la problématique de l’utilisation de l’OAI quand on veut non pas se contenter d’échanger des métadonnées, mais échanger les ressources elles-mêmes. Parmi les problèmes soulevés, il y en a un qui m’est cher en ce moment : la difficulté de faire correspondre les métadonnées et les identifiants avec la localisation réelle de la ressource. Enfin le propos est d’utiliser l’OAI pour échanger des formats de métadonnées complexes, comme METS et MPEG21, qui permettent à la fois de localiser précisément toutes les parties d’une ressource, et de connaître toutes les modifications qui l’affectent. Le protocole OAI rejoint alors le modèle OAIS, deux standards qui à part ça et malgré leur ressemblance phonétique n’ont rien à voir entre eux.

Merci à Catalogablog.

L’identification pérenne des ressources numériques (4)

Dans les épisodes précédents (1, 2, 3), nous avons vu :

  • les objectifs de l’identification pérenne des ressources numériques
  • les principales fonctionnalités des identifiants
  • les caractéristiques communes aux différents systèmes existants.

Aujourd’hui, je m’attaque à deux compléments indispensables de l’identifiant : le résolveur, et les métadonnées.

Le contexte de l’identifiant pérenne doit permettre de savoir à quoi celui-ci correspond et d’accéder à la ressource elle-même. Pour reprendre une métaphore que j’ai déjà utilisée : si on a votre nom, et qu’on veut vous trouver, il y a deux possibilités. Soit on dispose d’autres informations sur vous : votre photo, votre numéro de téléphone, votre adresse, votre CV ou n’importe quoi d’autre incluant dans le meilleur des cas votre adresse : ce sont les métadonnées. Soit on consulte un annuaire qui va donner l’adresse correspondant à ce nom : c’est le résolveur.

L’un n’exclut pas l’autre évidemment. On peut avoir un identifiant associé à des métadonnées et en plus un résolveur qui va donner l’URL correspondante.

Certains systèmes d’identification pérenne vont demander ou recommander la saisie de métadonnées conjointement avec l’enregistrement de la ressource. C’est le cas par exemple de DOI et de ARK.

D’autres systèmes sont dédiés à l’échange de métadonnées, mais incluent ou nécessitent un système d’identification pérenne pour accomplir leur rôle, qui est de donner accès à la ressource elle-même. Parmi ceux-ci on peut citer le protocole OAI-PMH.

Le rôle du résolveur d’identifiants est de faire correspondre au nom de la ressource son adresse réelle. Le résolveur peut être interne à l’institution qui donne les noms, ou externe et géré par une autorité indépendante.

Pour donner un exemple : la Library of Congress dispose de son résolveur qui fonctionne pour les identifiants DOI et Handle. On dispose d’un identifiant comme : doi:10.1045/january2005-fox, et il suffit de le faire précéder par l’adresse du résolveur pour accéder à la ressource : http://hdl.loc.gov/doi:10.1045/january2005-fox. Notez qu’il s’agit d’une simple fonction de résolution ; la ressource prise en exemple n’a aucun rapport avec la Library of Congress.

Le service PURL d’OCLC est un autre exemple de résolveur assuré de manière externe.

La combinaison du type de résolveur et du type de métadonnées associés à chaque système d’identification vont être un facteur de choix déterminant. Ils constituent le coeur du système, qu’il faut confronter avec les fonctionnalités attendues : par exemple, la possibilité de gérer plusieurs niveaux de granularité, la simplicité des mises à jour, la gestion des versions différentes d’une même ressource, etc.

Et voilà, j’en ai terminé avec cette introduction sur la problématique des identifiants pérennes des ressources numériques. Je rends justice à Diana Dack dont le rapport pour la National Library of Australia, bien que datant de 2001, reste encore largement d’actualité et a été ma principale source d’inspiration (attention le lien ne marche pas bien avec Firefox, il faut IE).

Dans une deuxième phase, il faudrait travailler sur la description de chaque système dans une approche comparative. Je ne sais pas si le Figoblog est le lieu pour faire cela… si vous pensez que oui, exprimez-vous dans les commentaires. Sinon j’en resterai là.