Le Web sémantique en 10 mn, 40 mn, 2h et… 2 jours

Un petit interlude publicitaire… Pour ceux qui n’auraient pas le temps ou le courage de lire dans son intégralité l’ouvrage sur le web sémantique en bibliothèque que j’ai commis avec Gautier et Antoine, je tenais à rappeler ici l’existence de quelques alternatives :

Puisque je suis dans la pub, j’en profite pour signaler que la susdite série de vidéos du CNFPT contient d’autres choses intéressantes, et notamment une intervention sur les identifiants pérennes par Sébastien Peyrard. Un visionnage qui pourra utilement être complété par la lecture du vade-mecum sur les identifiants pérennes à l’attention des producteurs de données, réalisé dans le cadre de la feuille de route web 3.0 du ministère de la culture. Celui-ci propose un parcours en 12 questions, illustrées d’exemples, pour bien concevoir ses identifiants pérennes pour le web de données.

Pourquoi j’ai accepté de sacrifier mes URL

Suite au déménagement du Figoblog, certaines personnes ont été émues par ma décision de ne pas assurer la continuité de service sur les URL des billets. En effet, comment peut-on consacrer tant d’énergie à défendre la cause des identifiants pérennes et se retrouver au final, tel le cordonnier, si mal chaussé ? Quelques explications s’imposent.

D’abord, un mot sur la cause technique. Comme je l’indiquais dans mon précédent billet, le Figoblog tourne maintenant sur une plateforme hébergée, à savoir WordPress.com. Si Got avait eu la main sur le serveur, il aurait pu mettre en place une réécriture d’URL : mes adresses en « /node/[identifiant-du-billet] » étaient en effet suffisamment simples pour que cela puisse fonctionner et l’identifiant a bien été récupéré dans les métadonnées du billet lors de la migration. Mais c’est ça, le problème du SAAS : on n’a pas toutes les fonctionnalités qu’on veut.

Ceci posé, comment aurais-je pu faire pour éviter ce drame, ce génocide, la mort de plus de 600 pauvres petites URL qui n’avaient fait de mal à personne ?

Pour commencer, j’aurais pu choisir une autre plateforme offrant cette fonctionnalité. Il aurait alors fallu que je fasse un critère de priorité de cette fonction, critère qui se serait trouvé prépondérant par rapport aux autres intérêts de WordPress.com (notoriété, gratuité, simplicité d’utilisation, etc.) bon, ce n’est pas le choix que j’ai fait ; il me semblait que les avantages de l’utilisation de cette plateforme, dont le fait qu’on a migré en 24h chrono, surpassaient les inconvénients.

J’aurais aussi pu choisir de laisser mon blog où il était et d’en commencer un nouveau. Après tout, c’est ce que font beaucoup de gens : voyez par exemple ARHV qui a déménagé pour l’Atelier des icônes avant de fermer boutique et passer sur Image sociale. Sur chacun de ses « anciens » blogs, un message indique qu’il est fermé et pour lire la suite, renvoie au nouveau. De fait, les vieux liens vers ARHV que j’ai pu créer dans mes anciens billets fonctionnent toujours.
C’est à dire qu’au lieu de tuer 600 URL, j’aurais pu accepter de laisser mourir mon blog tout seul… Mais tout entier.
Ah non. Ça, ce n’était pas possible. Vous voyez, je suis quelqu’un qui a besoin de changement. Souvent, je déplace tous les meubles de mon salon. Et quand j’en ai marre de déplacer les meubles et que je recherche un changement plus radical, je déménage. Mais je n’ai encore jamais déménagé en abandonnant tous mes meubles et mes cartons derrière moi.
En plus, pour être très franche, je n’ai pas l’intention de me remettre à bloguer beaucoup plus souvent ; alors quitter un blog pour en créer un nouveau qui resterait vide, cela n’avait pas tellement de sens.
Enfin, dans l’opération, j’aurais perdu la notoriété associée à mon nom de domaine : figoblog.org. Le fait que les gens le connaissent, ainsi que son référencement.

Donc quand Got m’a annoncé que les URL allaient être brisées, j’ai dit « tant pis ».
Comment puis-je encore me regarder dans une glace et dormir sur mes deux oreilles après avoir pris une décision pareille ? J’ai plusieurs choses à dire pour ma défense.
La première, c’est que ce n’est qu’un blog. Je n’ai jamais pris le moindre engagement institutionnel quant à la pérennité des URL de chaque billet. Le web change, bouge, chaque jour des URL naissent et meurent. Il y a des dizaines, des centaines de liens morts dans les vieux billets du Figoblog que j’ai emmenés avec moi dans ce déménagement. C’est la vie. Si on veut une image figée du web, il faut aller dans les archives (ou le dépôt légal).
La deuxième, c’est que d’un point de vue fonctionnel, j’estime qu’aujourd’hui on dispose de tous les outils nécessaires pour retrouver un billet, à commencer par le moteur de recherche intégré (là, à gauche). Et grâce à ma nouvelle plateforme, on tombe directement sur ce moteur quand on arrive sur un lien mort sur mon blog.
Last but not least, il me semble que l’usage principal d’un blog n’est pas (ou rarement) d’accéder aux vieux billets par des favoris. En général on les retrouve par son moteur de recherche préféré et de toute façon ce sont les nouveaux billets qui comptent (même si en me relisant j’ai trouvé quelques vieux trucs intéressants !) Quant aux twitts et autres posts Facebook qui sont mes principaux référents, ils sont encore plus éphémères…

Que peut-on retenir de cette aventure ? Et bien, que la pérennité a un coût. Maintenir des URL implique de trouver un équilibre entre le niveau de pérennité nécessaire et attendu des identifiants et les moyens dont on dispose pour les maintenir.
Sur mon ancien blog, le fait même de bloguer était devenu compliqué, laborieux, je ne pouvais plus voir le design en peinture, il y avait des bugs et du spam et plein d’autres inconvénients. Il fallait migrer. Got et moi n’avions que des moyens humains très réduits à consacrer à cette migration et nous avons dû faire des choix. Nous avions tout testé avec succès sur WordPress.com : l’import des anciens billets, les fonctionnalités front et back-office… Si je m’étais crispée sur cette histoire d’URL, tout était à refaire et la migration sans doute remise aux calendes grecques.

Pour résumer, la maintenance des URL était une fonction secondaire en termes d’usage, pour laquelle nous n’avions pas de politique stricte, et dont le coût était tel qu’il était susceptible de menacer l’activité elle-même (le blog). Dans ces cas-là, il faut savoir faire son deuil.

Le Figoblog nouveau est arrivé

Pour fêter en beauté le nouveau cru 2015, le Figoblog fait peau neuve.

Ça fait du bien (le design du site n’avait pas été rénové depuis 2008) mais surtout, mon très cher administrateur du site et moi-même avons décidé d’aller dans le sens de l’histoire. Nous abandonnons un système basé sur un logiciel open source et une exploitation internalisée (dans notre salon) pour aller vers une plateforme en SAAS (Software as a service).

Cette évolution va certes limiter un peu les fonctionnalités, mais elle permettra au Figoblog de bénéficier régulièrement et sans douleur des améliorations courantes de la plateforme et de son support. Par exemple, je devrais voir disparaître mes problèmes de spam et vous pourrez de nouveau mettre des commentaires (youpi !) Finis les thèmes mitonnés à la main avec notre plus beau Photoshop+CSS, là aussi je rentre dans le rang en adoptant l’un des nombreux thèmes librement disponibles.

Par ailleurs je quitte Drupal pour WordPress, non pas parce que je n’étais plus heureuse avec Drupal (et nous resterons bons amis) mais parce que les fonctionnalités de WordPress sont suffisantes pour mes besoins.

Bon, il y a juste un « léger » « petit » inconvénient : dans l’opération, toutes les URL des anciens billets vont être perdues. Pensez également à rafraîchir vos flux RSS. Je pense que la page 404 va être la plus visitée du site pendant un temps. Ah, les identifiants pérennes…

Qui n’URIsque rien n’a rien

En reprenant mes « vieux » diaporamas sur les identifiants, je me rends compte que j’ai contribué à propager des idées fausses sur les URL et les URI, belles métaphores à l’appui, notamment en proclamant que « une URI est la combinaison d’un nom et d’une localisation » ce qui a pu être compris un peu vite comme « URI=URL+URN ».

Je fais amende honorable en proclamant ici que les URL sont des URI.
Les URN aussi sont des URI, la seule chose de particulier qu’elles ont, c’est qu’elles commencent par « urn: ».

Il faut se débarrasser de la vieille idée reçue que les URL correspondent à une localisation d’un fichier sur un serveur. C’est de moins en moins souvent le cas sur le Web aujourd’hui. Les URL générées par les outils de gestion de contenu, par exemple, sont en fait des paramètres qui permettent de dire au logiciel comment accéder à la ressource.

Une URL, c’est donc
– une URI (parce qu’elle en respecte la syntaxe)
– qui commence (en général) par « http: » (qui est un préfixe d’URI enregistré et donc reconnu)
– qui identifie une ressource principalement par le mécanisme qui permet d’y accéder (par exemple, son emplacement sur le réseau).

Ce mécanisme peut être le nom du fichier et son emplacement sur le serveur.
Il peut être aussi une série de paramètres qui appellent une base de donnée, via un logiciel.
Ou une chaîne de caractères qui va être interprétée grâce à un annuaire qui « sait » où se trouve la ressource en question.

En conséquence de quoi, les URL sont des URI et peuvent prétendre à la pérennité, autant que n’importe quel autre type d’URI, pour un peu qu’on les gère correctement.

Les rapports et différences entre URI, URL et URN sont expliqués dans la RFC 3305.

Le mapping ultime

Dans ce communiqué de presse, est annoncée la naissance d’une initiative ambitieuse : Vocabulary mapping framework.
Il s’agit d’une extension des travaux de rapprochement entre les RDA et ONIX, visant à rendre intéropérables les principaux standards de métadonnées descriptives : Dublin Core, Onix, RDA, MARC21, DOI, FRBR, LOM, etc.
La méthode proposée : réaliser un mapping universel permettant de créer des passerelles (crosswalks) entre ces vocabulaires afin de faciliter les transformations d’un format à un autre. Les mappings seront exprimés en RDF/OWL. Ce résultat est attendu pour le 9 novembre 2009, où il sera formellement présenté lors d’une conférence à la British Library.
Les étapes suivantes envisagées sont la génération automatique de mappings entre n’importe quelle paire de formats, et l’existence d’un site qui permettra de maintenir et de faire évoluer les conversions.
Derrière le projet, on trouve le DOI, la British Library et le JISC (entre autres).

Mon avis personnel : le projet n’est pas seulement ambitieux, mais un petit peu délirant. J’ai beau croire fort dans les technologies du Web sémantique, pas sûr qu’elles permettront de résoudre tous les problèmes de mappings en 6 mois.
Et puis :
– est-ce que cela a vraiment un sens de faire un mapping absolu, indépendamment de la nature et de la spécificité des données et de la façon dont chaque format est implémenté ?
– n’y a-t-il pas un peu à boire et à manger dans la liste de métadonnées ci-dessus (des formats, des modèles conceptuels, des vocabulaires, des systèmes, etc…)
– enfin quel est l’intérêt du DOI (et de l’IDF, International DOI Foundation) pour soutenir un tel projet : le revendre ? vendre les résultats ? vendre le service ? rendre plus de gens dépendants du DOI ? mettre le DOI au centre du monde (ce petit monde qu’est le milieu de l’informatique documentaire) ?

A suivre de très près.

Identité et mémoire : la réputation des internautes sur le Web

Cet texte a été extrait d’un article rédigé récemment avec Clément Oury dans la revue Documentaliste, intitulé « Web 2.0 et mémoire : de la conversation à la conservation ». Ce passage avait dû être retiré car l’article était trop long. J’en ai profité ici pour le mettre à jour et l’enrichir de quelques nouvelles références. Merci à mes principales sources Brainsfeed, Internet Actu et Outils froids.

En faisant de l’internaute non plus un spectateur passif, mais un acteur à part entière de la production d’informations sur le Web, le Web 2.0 a profondément bouleversé les enjeux liés à la mémoire individuelle, en introduisant des technologies permettant à chacun de s’exprimer, de commenter, de contribuer, sur des types de sites diversifiés.

Dans le Web 2.0, l’internaute crée ou met en ligne des contenus qui autrefois restaient dans sa sphère personnelle. Sur Flickr, la proportion de photos de famille, d’amis ou d’animaux familiers est écrasante. Les premières études Médiamétrie sur la blogosphère (2005) montraient déjà une scission, avec une forte majorité de blogs ayant en moyenne un seul lecteur : c’était en particulier le cas des skyblogs, utilisés par les jeunes davantage pour communiquer entre eux que pour publier sur le Web (Voir par ex. Gautier Poupeau, « Blogs et Wiki, quand le Web s’approprie la société de l’information », BBF). Le succès de réseaux sociaux comme Facebook confirme un usage des technologies en ligne destiné à renforcer des liens existants, des communautés déjà soudées (Voir les premiers résultats de l’enquête « sociogeek » http://sociogeek.admin-mag.com/ portant sur l’exposition personnelle sur le Web). En parallèle, on voit se développer des tendances très fortes de création de communautés totalement virtuelles, comme par exemple sur YouTube, où un individu, seul devant sa Webcam, se lance dans une introspection dont la dimension intime est plus ou moins véridique, et autour de laquelle finit par se mettre en place un groupe de fidèles dont la croissance est soutenue par la dimension virale du média (Cf. Michael Wesh, « An anthropological introduction to Youtube », présentation à la Library of Congress, 23 juin 2008).

Or, il existe sur le Web 2 .0 une dimension paradoxale de la permanence des contenus : alors que les contenus les plus institutionnalisés ou travaillés reposent sur un investissement technologique de leur créateur (maintenance du site Web, renouvellement annuel du nom de domaine, etc.) et donc tendent à disparaître lorsque celui-ci s’en désintéresse ou n’est plus en mesure de les maintenir, les contenus générés par les utilisateurs et hébergés sur les plateformes 2.0 ont une permanence forte puisque ces plateformes continuent à fonctionner même une fois que leur auteur s’en est détourné. C’est ainsi qu’apparaissent sur le Web 2.0 des « friches », des blogs qui restent en ligne mais ne sont plus consultés ni mis à jour : ce serait le cas de 94 % des 133 millions de blogs nés en 2002 (d’après Françoise Benhamou, « Va-t-on vers la disparition des blogs ? » Rue 89, 3 décembre 2008).
Ainsi, alors que l’on voit de précieuses informations s’évanouir, d’autres ne veulent pas disparaître. D’innombrables données sont stockées, parfois à l’insu de leurs producteurs, par des sociétés commerciales, constituant un réseau d’informations personnelles sur lesquelles repose la réputation des individus. Des moteurs de recherche comme 123people se consacrent spécifiquement au recoupement de ces informations, et permettent en un clic de trouver, sur une personne, toutes les informations disponibles en ligne : photo, adresse, n° de téléphone, comptes Facebook, Twitter et autre, adresse du blog…

On parle maintenant d’identité numérique pour désigner ces données dont le recoupement pose questions. Des questions juridiques et économiques par exemple, comme celles explorées dans le rapport de la FING : Le nouveau paysage des données personnelles : quelles conséquences sur les droits des individus ? Mais aussi des problèmes techniques liés aux systèmes de gestion d’identité (voir Exposé sur les identités numériques à la Fulbi par S. Bortzmeier et Exposé pédagogique sur la cryptographie par F. Pailler pour le groupe PIN). Le site DatalossDB est un projet de recherche qui recense les incidents de pertes de données sensibles, de quoi se donner bien des frissons. D’autres projets de recherche explorent la question sous différents angles.

Alors, « Pourquoi sommes-nous si impudiques ? » En réalité, si les internautes consentent à fournir une quantité croissante d’information personnelle sur les sites du Web 2.0, c’est parce que cette information, de plus en plus, est maîtrisée. L’enjeu est moins de cacher les contenus nuisibles à sa réputation qui pourraient persister en ligne, le concept de « droit à l’oubli » s’avérant largement impraticable sur le Web, que de construire une image de soi dont l’objectif « promotionnel » tend à creuser l’écart entre la réalité et l’image donnée ou perçue, jusqu’au mensonge (Cf Hubert Guillaud, « Genevieve Bell : secrets, mensonges et déceptions », Internet Actu, 20 février 2008).
Le blog Doppelganger.name, tenu par trois consultants spécialistes en techniques managériales et en Web 2.0, étudie les rapports entre identité et réputation sur le Web : il montre comment les pratiques de recrutement sont aujourd’hui infléchies par cette réputation numérique.

Face au besoin de maîtriser son identité numérique, des ressources se mettent en place : comme cette liste de 300 et plus outils de gestion d’identité numérique ou ces conseils pour savoir comment effacer son profil sur les sites de réseaux sociaux. Pour éviter d’en arriver jusque là, on envisage de former les étudiants à la gestion de leur identité numérique, ce serait en effet la moindre des choses, et pas seulement pour des professionnels de l’information.

Identifiants pérennes

Il y a quelques temps, j’ai failli aller au salon Documation pour parler d’identifiants pérennes. Finalement, comme ça n’intéressait personne, la présentation a été annulée… En plus pour une fois je m’étais donné la peine de faire quelque chose de nouveau, au moins en partie.

Donc vu que ça n’intéresse personne je trouve ça très constructif de le mettre en ligne.

http://docs.google.com/EmbedSlideshow?docid=dhtrtz5w_30c38rzbfp

Ça m’évitera de continuer à me réveiller tous les matins en me disant que mon blog est en jachère depuis le 24 janvier, et que c’est mal.

Le côté obscur de la force ?

La politique d’OCLC est assez décriée en ce moment, notamment autour de leur volonté de revoir les conditions d’utilisation des notices de Worldcat.

Noter qu’une première version de cette politique avait été diffusée, suscitant des réactions assez vives. Etait en particulier incriminée la politique du « champ 996 », un champ ajouté aux notices récupérées de Worldcat dans lequel on mentionne la provenance de la notice et un lien vers la OCLC policy.

Le jour même, après la polémique ci-dessus, OCLC retire son texte pour le retravailler. Quelques jours plus tard, il en publie une nouvelle version. On peut comparer les deux versions ici.
A noter :

  • une clarification (simplification, peut-être un peu radicale) des types de partenaires
  • le retrait de certaines phrases qui donnaient un aspect « fermé » à la politique (sans pour autant que cela change le fond des différentes clauses, à mon avis).

On voit bien qu’ils ont essayé de retirer tout ce qui pouvait avoir l’air provocant. Ce qui apparaissait comme des obligations devient des incitations (par ex. ne pas retirer la mention d’origine des notices).

OCLC utilise ensuite son blog pour entrer dans le débat et expliquer sa politique :

  • la politique actuelle date des années 80 et a besoin d’être révisée dans le contexte du Web
  • la mention de provenance avec le lien vers la politique n’est pas dans un esprit de « propriété », mais de « source »
  • OCLC s’est inspiré de la Creative Commons pour l’aspect commercial / non commercial
  • l’objectif de la politique est de protéger la communauté contre des usages commerciaux concurrentiels qui pourraient la détruire.

Ce qui n’empêche pas la polémique de continuer, comme on peut le voir sur cette liste de tous les billets de blog qui abordent ce sujet… Et il y en a qui s’amusent bien :

OCLC a affiché sa volonté de discuter avec la communauté en organisant une rencontre le 16 janvier, et en repoussant la mise en oeuvre de la nouvelle politique de plusieurs mois. Pour autant, ils se font épingler jusque dans la presse avec cet article du Guardian qui prétend expliquer « pourquoi vous ne trouvez pas de livres de bibliothèques dans votre moteur de recherche » par les visées protectionnistes d’OCLC, opposées à OpenLibrary et aux travaux de Talis, et même à la publication du catalogue Libris dans le Linked Data et aux travaux d’Ed Summers.

Ce dernier complète (et dépasse) l’analyse du Guardian dans un billet remarquablement complet et pertinent qui évoque la problématique du référencement et le fichier « robots.txt » de Worldcat.

Ça doit être la mode d’analyser les fichiers d’exclusion de robots aux Etats-Unis, hier c’était celui de la Maison Blanche, passé de 2400 lignes à d’exclusion à une seule… le 20 janvier 2009.

Quelques minutes plus tard : tiens, je viens d’apprendre que OCLC va absorber OAIster. Vous avez dit monopole ?

xISSN

Vous connaissiez peut-être xISBN, un service de Worldcat qui contribue à la FRBRisation en renvoyant tous les ISBN en lien avec un ISBN donné. Ils ont créé un peu la même chose avec xISSN : un Web service qui sert à retrouver des ISSN en lien avec un ISSN donné.

Comme xISBN, il utilise les données de Worldcat pour relier entre eux les ISSN. On peut ainsi récupérer l’historique d’un titre e périodique ou de collection, les différentes formes, les différents supports, les métadonnées.

xISSN est un Web service, vous pouvez donc le tester en utilisant le formulaire de démo, mais ce n’est pas fait pour cela : en principe c’est fait pour être utilisé par une machine (par exemple, vous pourriez appeler ce service depuis votre catalogue pour créer des rebonds entre des notices).

Ils ont aussi développé un outil qui permet de visualiser tout cela sous forme d’un schéma, ce qui peut parfois se révéler utile quand on affaire à un périodique qui a changé de titre, fusionné avec un autre, rechangé de titre, changé de support, etc…

Exemple avec un changement de support :
http://worldcat.org/xissn/titlehistory?issn=0339-543X

Autre exemple (avec plus de circonvolutions dans l’histoire du titre) :
http://worldcat.org/xissn/titlehistory?issn=0151-914X

Pour l’instant je ne vois pas apparaître l’ISSN-L, ISSN de liaison dont l’objectif est justement de fédérer les ISSN pour les différents supports d’un même titre. Mais bon, si j’ai bien compris,
– l’ISSN-L est en fait choisi parmi les ISSN existants des différents supports (ce n’est pas un nouveau numéro)
– il ne gère que les supports coexistants, pas l’historique du titre.

Le service xISSN reste donc tout à fait utile !

Publications en français sur la préservation numérique

Le projet européen DPE (Digital preservation Europe) annonce la traduction en français de plusieurs de ses publications (« briefing papers » – comment traduire ça ?).

Dans la liste on trouve :
– La conservation numérique et les archives en accès ouvert. Un accès permanent aux fonds numériques en accès ouvert
– L’évaluation des documents scientifiques : Une gageure
– Préservation du contenu de l’Audio visuel numérique
– LOCKSS: Rétablir les bibliothécaires en tant que dépositaires du contenu des revue
– Les sources ouvertes dans la préservation numérique

J’espère que leur expert traducteur de français ne va pas s’arrêter en si bon chemin, et va s’attaquer aussi à « Automating semantic metadata extraction », « A data model for preservation metadata », « Persistent Identifiers for Cultural Heritage », « INTEROPERABILITY. A key concept for large scale, persistent digital libraries », et le petit dernier né, publié le 22 septembre : « Identifier interoperability ».

Allez Jean-Pierre ! On est tous avec toi !