Encore des numéros

Parce que les URIs, les ISSN, les ISBN et autres ne suffisent pas, des gens ont décidé de créer encore des numéros :

  • les ESBN pour les monographies électroniques,
  • les IBSN pour les blogs.

Le premier s’annonce comme un "DRM & copyright solution" et il est à peu près impossible, comme le remarque Catalogablog, de savoir qui est réellement derrière cette idée. Ce qui n’a pas empêché notre ami David Bigwood d’en prendre un… puisque c’est gratuit.

Le second semble émaner d’une frustration de la part de blogueurs espagnols qui n’ont pas réussi à obtenir un ISBN, et dispose d’un mode d’attribution assez original puisqu’on choisit soi-même son numéro, pourvu qu’il ne soit pas déjà attribué. L’IBSN commence à faire des émules sur quelques blogs francophones : Zaphir et Doc en Vrac.

On pourra lire ici quelques réflexions sur l’idée originale que 2006 sera l’année des identifiants uniques. C’est pas pire que celle du Web 2.0… ou d’autre chose…

Pour ma part, je vais me contenter de mes URLs et m’arranger pour qu’elles ne changent pas.

Mise à jour :

Belle synchronisation involontaire avec Vagabondages.

Des identifiants gentils avec les gens

J’en ai déjà parlé avec Coins, mais j’y reviens car le principe devient un peu plus clair dans ma tête. Il s’agit de rendre des identifiants (pérennes) actionnables à l’aide d’un agent, user agent disent-ils en anglais, et de HTML.

Voici le problème : en général, les identifiants pérennes ont l’avantage de transporter plein d’informations utiles avec eux, ou de sous-entendre cette information. Un Purl est un lien pérenne pour lequel on a enregistré dans une base sa correspondance avec la localisation réelle du document.
L’inconvénient de ce type d’identifiants, c’est qu’ils ne sont pas gentils-avec-les-gens (user-friendly). Ils ne s’affichent pas dans la barre d’URL du navigateur. La plupart du temps, on clique dessus sans même savoir qu’ils sont pérennes en fait.

Certains ont donc eu l’idée de développer des outils qui vont se comporter comme des grands, et savoir "quoi faire" quand ils sont confrontés à de tels liens.
C’est le cas de cette extension Firefox qui permet de reconnaître la présence l’un Purl sur une page Web et de faire en sorte que le Purl soit bookmarké à la place de l’adresse normale de la page.
Malheureusement elle ne fonctionne qu’avec Firefox 1.0, alors comme je suis passée à 1.5 j’ai pas eu la joie de la tester. C’est dommage il faudrait qu’ils remettent à jour.
Pour que cela puisse marcher, cependant, il faut encoder correctement les liens, à savoir leur ajouter une métadonnée : link rel=’purl’ href= »http://purl.org/net/linkpurl » dans l’en-tête de la page. C’est ce qui permet au « user agent », ici une extension Firefox, mais ce pourrait être un bookmarklet par exemple, de savoir que la page a un Purl et qu’il doit le prendre en compte.

C’est le même principe avec Coins. Un lien OpenUrl est comme une valise dans laquelle on transporte des métadonnées pour aller d’un endroit (la référence bibliographique) à un autre (le texte). L’idée est d’encoder ce lien en HTML, de façon à ce qu’un « user agent », comme le bookmarklet d’openWorldcat que je signalais, le reconnaisse et fasse ce qu’il a à faire, dans ce cas créer un lien vers WorldCat.

Donc on a un site où on code des informations particulières, invisibles pour les gens, pour procéder à certaines actions. L’utilisateur se munit des « user agents » qui lui conviennent et les actionne au cours de sa navigation. Les agents en question actionnent alors d’autres services pour lui.

J’espère que c’est un peu plus clair… (en fait non, mais c’est pas grave, j’y arriverai un jour).

Deux autres ressources sur les identifiants, juste comme ça en passant :

Les vrais gens

Message personnel : le fil RSS en HTML est désormais compatible avec Liferea.

A part ça, c’était un très bon Paris Carnet. La bière avait un drôle de goût d’eau, mais l’assistance était de qualité. Je félicite un certain nombre de participants pour leur capacité à m’aider à me souvenir de leur blog, découvert à cette occasion :

  • Sok et sa fameuse méthode consistant à refuser de parler de son blog (je t’ai repéré quand même !)
  • le socionome avec une agréable conversation sur les mérites de faire une thèse
  • labosonic que je remercie pour la thérapie de comptoir.

J’ai aussi eu la joie et l’honneur de croiser le capitaine, Padawan, MeloDye, Eric un nouveau, et LoGeek. Merci à eux.

Les absents ont cruellement, cruellement manqué.

Enfin une très spéciale dédicace à Nimwendil, pour qui je publie pour la première fois une photo d’un truc que j’ai fait…

Vous grokkez ?

Grokker est un outil de visualisation qui utilise Yahoo (et quelques autres sources) pour proposer une façon alternative de naviguer dans des résultats de recherche.

Ce qui est intéressant, c’est qu’on a une approche originale de la recherche d’information : sur une requête, l’outil propose différents points de vues, différentes façons d’aborder le mot recherché. Pour prendre un exemple, si on cherche des informations sur Paris, au lieu de bêtement trier les pages où le mot "Paris" apparaît le plus volontiers, il fait des recoupements et propose des liens commerciaux, des hôtels, des bulletins météo, des ressources sur la Tour Effeil, sur l’histoire de Paris, etc. On peut ensuite zoomer sur cette carte d’informations, explorer de plus près l’un des aspects, et aller jusqu’à une vignette et un descriptif des sites recensés.
Comparé à un moteur traditionnel, textuel, on va donc passer beaucoup plus de temps à explorer les résultats, et beaucoup moins à cliquer sur les sites pour voir ce qu’il y a dedans.
Gain de temps ? Cela reste à voir, notamment en fonction de la pertinence du terme recherché et de celle des outils qui vont proposer les rapprochements d’idées.

Pour évaluer l’intérêt d’avoir ces différents points de vue sur l’information, vous pouvez jouer avec le "grokker puzzle" et essayer de deviner la requête à partir des résultats de la recherche… (accès par le petit menu en bas de cette page)

Deux autres outils sympas pour montrer l’intérêt de la visualisation pour la recherche, ou plutôt, l’appréhension de certains types d’information :

  • Newsmap pour les actualités
  • Gnod pour la musique et les bouquins.

Et enfin un article, à l’usage des bibliothécaires, qui fait le point sur ce sujet dans Library Journal.

Remous de la blogosphère

Non je n’ai pas disparu, je suis juste un peu occupée cette semaine. Mais malgré tout, j’observe silencieusement depuis quelques temps les remous de la blogosphère, et elle en fait des remous en ce moment.

D’abord il y a eu les voisins qui ont mis la clef sous la porte, comme ça, sans prévenir, déclenchant une tempête dans la microblogosphère bibliothéconomique. En même temps, ils ont continué, ailleurs.

La mort prématurée de ce pilier de la biblioblogosphère a attristé certains, révolté d’autres, et encore suscité les réactions les plus diverses comme par exemple un irrépressible besoin d’inventaire, témoignage peut-être d’une déformation professionnelle que nous ne saurions blâmer.

Ailleurs, on découvre que ce que certains avaient pris avec espoir pour un florissement de biblioblogs n’était qu’un exercice pédagogique, et peut-être un feu de paille – bien que nous ne puissions qu’encourager ces nouvelles blogovocations dans notre métier et souhaiter qu’ils poursuivent, peut-être ailleurs, leur découverte.

Encore un peu plus loin de notre coeur blogosphérique, j’ai suivi avec passion le débat entre deux célèbres blogueurs sur le thème de la préservation à long terme des documents numériques, quand ils sont protégés par des DRM – sujet qui me tient particulièrement à coeurcomme vous le savez peut-être.

Et enfin, cette semaine, c’est l’affaire Garfieldd qui me touche, parce qu’il était fonctionnaire, et en particulier parce qu’il était fonctionnaire et qu’il ne l’est plus.
Je ne lisais pas ce blog, mais je me suis suffisamment documentée pour rester pétrifiée.
Ce genre d’approche risque à mon avis de priver la blogosphère d’une de ses richesses : le mélange des genres. Vous pouvez parler de votre travail, mais alors évitez d’étaler votre vie privée. Votre vie privée ne regarde que vous, mais votre travail n’en fait pas partie.

Un dernier conseil pour la route : bloguez nombreux, bloguez heureux, mais faites attention, la confiture de figues se marie très mal avec les collections de bibliothèques qu’elles soient papier ou numériques (principalement à cause des excès de sucre)…

De la bouteille de Klein aux extra-terrestres

Il y a quelques temps, j’ai découvert la 4e dimension : celle de la bouteille de Klein. Je précise que j’étais arrivée là via le noeud de Moebius d’Olivier. Pour paraphraser l’article de Wikipedia, il s’agit d’imaginer un mouvement de la surface qui serait impossible dans notre dimension, lui permettant de s’interpénétrer elle-même.

Poursuivant ma quête de la 4e dimension, j’ai atterri sur des sites scientifiques qui m’ont révélé une nouvelle dimension des interfaces de bibliothèques numériques… D’abord ici où vous pouvez manipuler la bouteille de Klein avec la souris, puis … Ce deuxième site présente des modèles de cinématique, c’est-à-dire des machines qui sont faites juste pour fonctionner. On peut, pour certaines, les voir à l’oeuvre et même les manipuler avec la souris, aussi.

Dans le genre original, vous pouvez aussi visiter une bibliothèque numérique un peu particulière, consacrée aux cynlindres enregistrés, les premiers supports sonores du siècles dernier. On peut les écouter et les copier (oui, ils sont dans le domaine public, et le site lui-même est en Creative Commons).

N’oubliez pas, pour terminer cette promenade scientifico-étrange, de changer votre logiciel de grid si vous participez au SETI project : ce projet de recherche d’une intelligence extra-terrestre entre dans une nouvelle phase.

Archivegrid

Voici un étrange truc que nous annonce RLG, avec un peu de fanfare, pour 2006 : Archivegrid.

Il s’agit de mettre en ligne des ressources archivistiques internationales concernant les personnes, les groupes, les lieux et leur histoire en général, conçu un peu sur le modèle de RedLightGreen.

Comme son nom (et son logo) l’indique, Archivegrid sera quelque chose de plus qu’un portail ou un site fédéré ; un véritable "grid" avec beaucoup de partenaires et une impressionnante interface à facettes (??) dont on se demande ce qu’elle cache comme indexation sujet.

Bref un espèce de méta-inventaire d’archives, apparemment basé sur l’EAD mais pas seulement, qui imite (en mieux ?) les méta-catalogues de bibliothèques. Une future réjouissance pour les historiens. Pour la France on y trouve nos amis de la DAF.

Envie de participer ?

Merci à ResourceShelf.

Le « paradigme » de Google print ne date pas d’hier

Aujourd’hui, les processus itératifs de production et d’assimilation de l’information sur le Web conduisent souvent à biaiser notre perception temporelle des événements : seules les informations les plus récentes surnagent, les plus anciennes sont noyées et oubliées, ce qui fait qu’on peut facilement (et on le fait) dire tout le temps la même chose sans que ça se voie trop. C’est le principe des blogs, le mien par exemple : ça fait plus d’un an que je répète tout le temps la même chose et il y a toujours des gens pour me lire ;-)

Pour se détendre un peu, je vous propose une petite analyse de textes comparée.

En 1998 : Quelle définition pour les métadonnées. De façon simpliste, on pourrait dire c’est un nouvelle redéfinition du catalogage.
En 2005 : We’ve been managing book metadata basically the same way since Callimachus cataloged the 400,000 scrolls in the Alexandrian Library at the turn of the third century BC.

En 1998 : Ces données qui servent à identifier les documents et à rechercher des informations peuvent être soit créées en tant que telles a priori en accompagnement de la ressource électronique ou elles peuvent être retrouvées et combinées a posteriori par des systèmes de recherche.
En 2005 : Publishers, libraries, even readers can potentially create as many classification schemes as we want.

En 1998 : Une des composantes très importante de métadonnées est l’identifiant unique et permanent de chaque ressource. Ces identifiants qui s’appuient lorsque cela est possible sur les identifiants classiques passifs (ISSN, ISBN) doivent permettre un accès à plus long terme sur le réseau que les seuls URL actuels.
En 2005 : First, we’ll need what are known as unique identifiers-such as the call letters stamped on the spines of library books. (…) the ISBN is a good starting point

En 1998 : A partir d’informations préparées et proposées dans un format universel et révisable on peut toujours rajouter ses propres données dans le même format. C’est l’objectif de l’initiative TEI de faire un format qui soit un format d’édition, de proposition de mise en forme logique de l’information que les chercheurs peuvent utiliser eux-mêmes pour éventuellement ajouter leur propre code pour une exploitation par leur propre logiciel pour du traitement linguistique.
En 2005 : Using metadata to assemble ideas and content from multiple sources, online readers become not passive recipients of bound ideas but active librarians, reviewers, anthologists, editors, commentators, even (re)publishers.

Amusant non ? Evidemment en coupant les citations comme ça on peut faire dire aux textes ce qu’on veut. Mais l’exercice d’une façon générale se vérifie le plus souvent : le soi-disant nouveau paradigme révélé par Google print ne date pas d’hier. Il était au biberon en même temps que Google lui-même…

Web services et bibliothèques

Les Web services sont des technologies basées sur les standards du Web qui permettent à des applications de dialoguer entre elles. Il fournissent un cadre pour trouver, décrire et exécuter ces applications.

Les caractéristiques des Web services.

Web based : les Web services sont basés sur les protocoles et les langages du Web, en particulier HTTP et XML (tout comme le Web lui-même s’appuie sur les protocoles d’Internet en particulier TCP/IP : c’est une « couche » supplémentaire).

Self-described, self-contained : le cadre des Web services contient en lui-même toutes les informations nécessaires à l’utilisation des applications, sous la forme de trois fonctions : trouver, décrire et exécuter. Il est donc nécessaire pour faire fonctionner un cadre de Web services de disposer d’un annuaire des applications disponibles, d’une description du fonctionnement de l’application, et d’avoir accès à l’application elle-même.

Modular : les Web services fonctionnent de manière modulaire et non pas intégrée. Cela signifie qu’au lieu d’intégrer dans une seule application globale toutes les fonctionnalités, on crée (ou on récupère) plusieurs applications spécifiques qu’on fait intéropérer entre elles, et qui remplissent chacune une de ces fonctionnalités.

Les perspectives

La longévité et la fiabilité d’un système qui vise à fonctionner de manière distribuée se mesurent à l’ampleur de l’implémentation qui est faite du système par l’industrie.

Nous en sommes actuellement à ce stade pour les Web services. Il existe des formats et des protocoles dont le succès montre qu’ils tendent à se détacher et à devenir des standards de fait pour les Web services : il s’agit du triplet SOAP-WSDL-UDDI. Ces trois technologies constituent l’architecture étendue des Web services, actuellement en discussion pour être adoptée comme standard par le W3C.

Il s’agit bien d’une architecture étendue pour les Web services, pas de la seule architecture possible. C’est certainement le cadre le plus large, le plus stable mais aussi le plus complexe pour faire fonctionner des Web services.
On oppose en général cette architecture basée sur SOAP à celle qui utilise REST . REST consiste à utiliser le protocole HTTP simple plutôt que d’avoir recours à une enveloppe SOAP (on verra ce concept d’enveloppe plus loin). Les défenseurs de REST mettent en avant la simplicité d’utilisation et le fait de ne s’appuyer que sur l’existant, ce qui est selon eux un gage d’intéropérabilité. Les défenseurs de SOAP au contraire pensent que c’est la stabilité et la fiabilité d’un système riche et adaptable à toutes situations qui, malgré la complexité qui en résulte, sont les mieux à même de défendre cette intéropérabilité.

L’architecture étendue des Web services

On désignera donc par « architecture étendue » le cadre de Web services qui repose sur SOAP, WSDL et UDDI. Tous trois sont des technologies basées sur XML, ce qui permet en théorie aux applications de Web services de les utiliser de manière autonome (sans intervention humaine) d’un bout à l’autre des opérations.
Cette architecture fonctionne comme une lettre à la poste (vraiment !):

  • on dispose d’un annuaire des Web services réalisé grâce à la technologie UDDI. Cet annuaire contient plusieurs types d’informations. Les pages blanches regroupent les informations de contact et d’adresse du service. Les pages jaunes proposent un classement thématique standardisé des différents types de services disponibles. Enfin, des pages techniques décrivent plus en détail le fonctionnement des applications et indiquent comment appeler le fichier WSDL.
  • Les fonctionnalités de chaque application et le langage qu’elle comprend sont décrites par un fichier WSDL . WSDL permet donc de savoir pourquoi et comment on peut dialoguer avec l’application cible : quelles informations ou quels services rechercher, quel langage et quelles commandes utiliser, etc.
  • SOAP est une enveloppe : on l’utilise pour y mettre le message que l’on souhaite faire parvenir à l’application cible. L’application utilise à son tour une enveloppe SOAP pour renvoyer la réponse. On peut mettre ce que l’on veut dans cette enveloppe, pourvu que ce soit du XML et que ce soit conforme à ce qui est décrit dans le fichier WSDL associé.

Exemple d’application

Une entreprise par exemple Google ou Amazon, décide de créer un Web service. Elle publie son API , c’est-à-dire un fichier WSDL, une application qui permet de l’exploiter, et la documentation qui l’accompagne (des exemples, des tutoriels, etc.). Il peut aussi d’accompagner d’une licence qui définit les conditions d’utilisation (nombre de requêtes autorisées par jour, demande de compte utilisateur…). Un développeur créée ensuite une application capable de dialoguer avec cette API. La nouvelle application intègre les fonctionnalités de l’ancienne.

Cela permet ensuite de créer des outils capables d’interagir avec différents Web services et de proposer des fonctionnalités intégrées. Par exemple Amazon light 4.0 : cette interface utilise l’API d’Amazon pour rechercher un document dans la base d’Amazon.
Elle combine ensuite différentes API (pas forcément en SOAP dans ce cas précis) pour proposer une batterie de services une fois qu’on a trouvé un document intéressant :

  • Elle utilise l’API d’Amazon pour trouver le document puis pour fournir les mêmes services qu’Amazon (acheter en ligne, ajouter à sa « wishlist »)
  • elle utilise l’API de Gmail pour envoyer un mail, en récupérant le titre du document dans le titre du message et le lien dans le corps du message ;
  • elle utilise l’API de Blogger pour créer directement une entrée de blog comportant le titre de l’ouvrage et le lien (je suppose n’ayant pas de compte blogger)
  • elle utilise l’API de del.icio.us pour permettre de partager le lien dans ce logiciel en ligne de « social bookmarking »
  • elle utilise l’API de Google et en particulier l’indexation de Worldcat par celui-ci pour la fonction « library lookup », qui permet de retrouver directement l’item dans le catalogue de sa bibliothèque (à condition d’habiter en Australie, aux USA et dans quelques autres pays).
  • elle recherche des liens en relation avec le document, notamment le résumé dans Google print et les « related links » dans Google et Yahoo.
  • etc…

Cet outil illustre parfaitement, dans une logique poussée à l’extrême, les possibilités ouvertes par les Web services dans un domaine orienté objet/document.

Applications en bibliothèque

Un travail a été mené depuis quelques années pour faire évoluer la norme Z3950 vers les technologies Web en utilisant les Web services. Deux cadres d’application ont été développés :

  • SRW qui utilise SOAP comme format d’envoi des requêtes et de réponse,
  • SRU qui se base sur REST. On utilise alors une série de verbes pour effectuer des commandes, exactement comme pour l’OAI.

La Library of Congress a expérimenté l’utilisation de SRW et SRU pour améliorer son interface Z3950. Pour cela elle a travaillé avec la société IndexData et son logiciel TAZ.

Notons que Index Data fait partie de VIEWS , un groupement de vendeurs de SIGB et d’organisations liées aux bibliothèques (Dynix, Fretwell-Downing, Index Data, Muse Global, OCLC et VTLS) dont l’objectif est de favoriser la collaboration entre partenaires économiques des bibliothèques pour améliorer l’interopérabilité des interfaces grâce aux Web services. Ce groupe est également soutenu par l’oragnisme de normalisation américain NISO.

Les bibliothèques utilisent déjà un certain nombre d’outils qui fonctionnent sur un mode assimilable à REST (requêtes HTTP GET et POST et envoi de documents en XML) comme l’OAI-PMH. Aux yeux de certains, ces outils peuvent être assimilés à des Web services (même s’ils ne font pas partie de l’architecture étendue des Web services).
Je ne reviens pas ici sur les applications possibles de l’OAI en bibliothèque.

En fait, les Web services devraient intéresser les bibliothèques de plusieurs points de vue :

  • l’intégration des applications (en interne et en partenariat),
  • l’accès au document
  • les services au public.

Du point de vue de l’intégration des applications, les Web services représentent une solution d’interopérabilité simple et fiable, en train de devenir un standard de fait. On devrait songer à des solutions comme SRW (qui s’appuie sur SOAP) pour remplacer Z3950 dans l’interrogation distribuée des bases. Si on a plusieurs bases différentes pour différents types de documents, les Web services peuvent être une solution pour mettre en place une interrogation commune sur bases distribuées, transparente pour l’utilisateur, sans modifier ni intégrer les applications.

Du point de vue de l’accès au document, outre la possibilité d’intégrer des métadonnées comme on le fait avec le protocole OAI et avec SRU/SRW, on peut aussi intégrer les applications elles-mêmes. On peut ainsi partager des données grâce à des échanges en temps réel, mais également exploiter directement ce qui relève des applications développées : moteur de recherche, interface de consultation, et pourquoi pas les contenus eux-mêmes et des ontologies pour les décrire (voir sur ce dernier point, par exemple, l’API de SKOS).

Du point de vue de l’usager, les Web services ouvrent la porte à l’intégration de la bibliothèque dans un certain nombre de fonctions en ligne, surtout des fonctions sociales dont l’importance est croissante. Ils permettraient de donner à l’usager des outils simples pour intégrer la bibliothèque aux outils qu’il utilise couramment sur le Web : suivre les nouveautés avec RSS, relier directement les données du catalogue à celles de Google ou d’Amazon… Aller dans le sens d’une intégration des contenus aux dépends des formats, en suivant la tendance actuelle.

Ma principale source est l’ouvrage The Semantic Web : A Guide to the Future of XML, Web Services, and Knowledge Management. Une recherche dans votre moteur préféré vous donnera de nombreux liens vers des articles plus techniques, notamment (il faut bien le reconnaître) ici. Merci à T. et F. pour leurs encouragements qui sont à l’origine du plus long billet de l’histoire de ce blog !

Pauvre Gutenberg

Il doit se retourner dans sa tombe à chaque fois qu’on lui fait le coup : Gutenberg est encore une fois l’anti-héros d’un ouvrage sur l’évolution de l’édition à l’heure d’Internet. Une presse sans Gutenberg analyse les conséquences du développement d’Internet sur la presse.

Je recommande tout particulièrement l’article du blog de ZDNet qui explique bien ce qu’on y trouve… et ce qu’on n’y trouve pas.

A compléter par la lecture d’un avis du CES intitulé Garantir le pluralisme et l’indépendance de la presse quotidienne pour préserver son avenir (pdf) (via Juriblog).

PS : Non Gutenberg n’a pas inventé la rotative ;-)

Mise à jour :

PS2 : Ni le codex !