Le catalogue en prison

A l’origine, le catalogue était un meuble, composé de tiroirs et de fiches, trônant dans la salle de référence. Pour le consulter, il fallait s’y rendre. Les données étaient prisonnières d’un objet.

Alors, on a fait des catalogues imprimés : diffusés en plusieurs exemplaires, on pouvait les consulter à distance. Mais c’étaient toujours des catalogues en papier, uniquement compréhensibles pour les yeux avisés de lecteurs humains. Les données étaient prisonnières d’un support.

Alors, on a fait des SIGB : informatisées, les données devenaient manipulables par machine ce qui facilitait grandement leur accès, leur gestion, leur production. Mais le SIGB était une boîte noire, rigide, parfois incompréhensible : les données étaient prisonnières d’un logiciel.
Les SIGB libres ont été un espoir qu’on pourrait ouvrir la boîte, mais ça n’a pas pris. Sans doute parce que ça n’en valait pas l’investissement : même si on pouvait, grâce au code source ouvert, tourner une vis ici, ajuster un boulon là, les données étaient toujours prisonnières de la base de données.

Alors, on a créé les formats standards et les protocoles d’échange. Grâce à eux, on peut sortir les données du SIGB pour les échanger ou les réutiliser. Mais malgré l’étonnante capacité de notre communauté à se normaliser et se contraindre elle-même, il y avait toujours une étiquette de champ inapropriée, un $a appliqué de manière différente, un indicateur vide avec un sens particulier, une donnée locale non standard. Les protocoles sont toujours une barrière, un passage obligé pour faire sortir – aux forceps – les données.
Ajuster les mappings entre les formats et paramétrer les protocoles est une opération horriblement complexe, et coûteuse. Ou alors, elle « lave plus blanc » en nivelant les données par le bas, les privant de leur richesse.
Les données sont prisonnières de leur propre structure.

Arrive le Web sémantique. En atomisant la structure des données, il les rend toutes égales, et libres.

Au-delà des formats et des protocoles, le Web sémantique a le pouvoir de vraiment libérer les données. Libres, nos données seront plus riches, plus pérennes, plus interopérables. Osons redonner le pouvoir aux données.

La fin des temps

– […] Moi, pour expliquer ça simplement, je suis mêlé à la guerre de l’informatique. Autrement dit, je suis le chaînon manquant entre maintenant et le moment où les ordinateurs auront une personnalité. Un expédient temporaire, quoi.

– Les ordinateurs auront une personnalité un jour ?

– Peut-être. Et comme ça ils pourront eux-mêmes brouiller leurs données et les reprogrammer, et personne ne pourra voler les informations.

[…]

– Je ne comprends pas très bien, dit-elle […]. Parce qu’une bibliothèque c’est un endroit tellement paisible. Il y a plein de livres, et tout le monde vient les lire, c’est tout. Les informations sont ouvertes à tous et personnes ne se bat pour elles.

– J’aurais dû travailler dans une bibliothèque.

Haruki Murakami, La fin des temps (1985).

Je vous recommande la lecture de ce bouquin génial, qui vous montrera la bibliothèque plus poétique, étrange, sereine, poussiéreuse, riche, utile et romantique que vous ne l’avez jamais vue. D’une façon générale, il faut lire du Murakami, et celui-là en particulier. C’est essentiel à la vie.

Un parfum de Provence

En ce moment, il semblerait que la motivation ne soit pas vraiment au rendez-vous pour la veille. Ainsi, me promenant ce dimanche dans le marais du côté de l’Espace des Blancs-Manteaux, au lieu de parcourir le Salon de la revue, je me suis laissée aller à des errances culinaires dans le quartier.

D’abord, rue Vieille du Temple , il y a une chocolaterie extraordinaire avec une fontaine de chocolat fondu. On peut en acheter à emporter, avec des fruits à tremper dedans : une expérience gustative à ne pas manquer si vous voulez mon avis.

Ensuite je suis allée chez Oliviers&Co juste un peu plus haut dans la rue pour voir s’ils avaient des trucs à la figue – ça ne tombait pas sous le sens, mais en fait oui. En plus on peut presque tout goûter.

Ils ont de la confiture de figues que je n’ai pas goûtée (j’ai arrêté la confiture ces derniers temps), une espèce de vinaigre balsamique à la figue : très sirupeux, sucré, et fort en figue (presque trop, du coup je ne l’ai pas acheté), et un vinaigre « simple » à la figue que j’ai acheté mais pas encore goûté.
Ils vendent même un coffret spécial figues avec tout ça dedans.

J’ai aussi acheté un truc qui m’a intriguée (pas encore goûté non plus) : le sablon de tomates. C’est un genre de tomates concentrées en poudre qui paraît-il permet de donner le goût de tomates à des huiles ou des plats. Avec on m’a donné sur un petit papier une recette de soupe que j’ai hâte de goûter, suite à une expérience récente avec de la soupe instantanée qui m’a beaucoup déçue par rapport au souvenir d’enfance que j’en avais… Bref, voici la recette (pardon pour leurs droits d’auteurs, mais j’ai vraiment peur de perdre le petit papier) :

Soupe du placard
– éplucher et hacher 1 tête d’ail & 1 gros oignon, faire blondir quelques instants dans un fait-tout avec 2 c. à soupe d’huile d’olive
– ajouter 4 c. à café de sablon de tomates, 2 feuilles de laurier, mouiller avec 1 litre d’eau et laisser mijoter 10 min.
– battre 4 oeufs en omelette avec 2 c. à soupe de vinaigre de figues et verser dans une soupière
– recouvrir les oeufs avec le bouillon et battre au fouet
– servir chaud avec croutons maison.

Voilà qui me paraît prometteur pour les soirées d’automne, froides et sombres comme la nuit tombée trop tôt, quand le spectacle des feuilles mortes aux couleurs chaudes donne des envies de Provence. Un bol de soupe, et au lit.

RDF et les bibliothèques, biblio

Tiens c’est marrant je ne suis plus toute seule :

Semantic Libraries, a change of direction ? puis Semantic Web – A Librarian’s perspective sur Panlibus
The Semantic Web as a large, searchable catalogue: a librarian’s perspective cité par le précédent et re-cité par Pintini
– du côté des geeks, Darcus Blog s’amuse avec RDF et Worldcat
– et font les louanges de MARC comme format pour préparer le Web sémantique

On dirait que c’est dans l’air du temps. C’est l’occasion de parler à nouveau de MarcOnt qui essaye d’utiliser MARC21 et Dublin Core pour faire des ontologies.

RDF et les bibliothèques : FAQ

Ok, c’est un non-sens de parler de « FAQ » pour un sujet sur lequel jamais personne ne pose de questions. Disons que voici quelques réponses aux questions que je me pose souvent à moi-même ;-)

C’est quoi, déjà, RDF ?
Comme son nom l’indique, c’est un cadre de description de ressources. C’est un modèle conceptuel qui permet de décrire des choses. Toutes sortes de choses.

Je suis bibliothécaire. En quoi suis-je concerné par RDF ?
Comme dit, RDF sert à décrire des choses. Or, les bibliothécaires décrivent des choses. Tu es donc très très concerné, cher ami.

Admettons. Peux-tu me dire à quoi RDF pourrait me servir, par exemple ?
Eh bien, par exemple, RDF pourrait te permettre d’améliorer la façon dont tu décris les choses. Non seulement les livres, mais aussi les ressources en ligne, les lieux, les gens, les concepts.

Alors, RDF peut m’aider à améliorer mon catalogue ? Comment ?
Aujourd’hui, ton catalogue est conçu sous la forme de fiches : des fiches bibliographiques, des fiches d’autorité… Toutes ces fiches sont informatisées bien sûr, mais la base de données que tu appelles catalogue fonctionne elle-même comme une collection de fiches.
En conséquence, chaque information qui figure sur une fiche (dans une notice, si tu préfères, que ce soit une notice bibliographique ou une notice d’autorité) n’est compréhensible que dans cette fiche. Si tu l’en sors, tu perds toutes les relations implicites qu’elle entretient avec les autres informations de la notice.
Si tu utilisais RDF pour décrire tes ressources, tu n’aurais plus des fiches mais des données, ce qui veut dire que chaque petit élément de description à l’intérieur de chaque fiche serait explicitement relié à tous les autres, et aurait une signification par lui-même. Tes données seraient beaucoup plus puissantes, indépendantes, libres.

D’accord, alors RDF améliore mes données?
Pas du tout. RDF ne fait que les représenter différemment. Tes données sont déjà très bien : elles utilisent un format complexe et structuré, le format MARC, qui contient déjà beaucoup d’informations intéressantes en expliquant à quoi elles servent (grâce aux fameux $a etc…) RDF ne va pas améliorer tes données, seulement les aider à travailler davantage.

Oui mais… Je ne suis même pas encore passé à XML. Tu ne crois pas que c’est un peu tôt pour regarder RDF ?
Diable non. RDF n’est pas un concurrent de XML. En théorie, tu pourrais complètement sauter l’étape XML. En pratique, c’est vrai que ce sera plus facile si tu sais déjà exprimer tes données en XML.

Alors c’est quoi, la différence entre RDF et XML?
Il y en a de nombreuses. Pour ne pas t’embrouiller, je vais simplement te dire que XML permet de réprésenter tes données sous forme d’arbre, suivant une hiérarchie. L’objet que tu décris (par exemple, un livre) est à la racine de l’arbre. Les éléments de ta notice sont ses branches et ses feuilles.
Avec RDF, tu représentes tes données sous forme de graphe, avec des liens entre les données. Imagine que ta notice est une étoile ; ce que tu décris est au milieu, et chaque élément de description est à la pointe d’une branche. Avec RDF, non seulement tu peux choisir ce que tu mets au centre de ton étoile (un livre, ou une personne, un sujet, un lieu, autre chose), mais en plus, tu ne te contentes pas de suivre le chemin le long des branches, tu sais où tu vas car les relations entre tes données sont typées. Tu peux aussi te promener d’étoile en étoile en cheminant le long des branches.

Autre chose, j’ai entendu parler des FRBR… Est-ce que RDF va m’aider à FRBRiser mon catalogue ?
Mmh, oui et non. Comme je te le disais, RDF ne va pas améliorer tes données. Donc s’il manque des choses dans tes données, comme la notion d' »oeuvre » dans les FRBR, elles manqueront toujours. Par contre, la façon de représenter tes données en RDF est beaucoup plus proche de FRBR que tes notices classiques, justement grâce au principe du graphe et parce que les relations sont explicites et typées.

C’est vraiment super ! Mais quand je lis « RDF – OWL – SPARQL – SKOS – N Triple » et des trucs comme ça, je me dis que tout cela est vraiment trop compliqué pour moi. Non ?
Evidemment, je te mentirais si je te disais que tu vas t’en sortir en un jour avec toutes ces notions et les technologies qui y sont associées. Mais il faut aussi se souvenir que RDF c’est avant tout exprimer les données sous forme de phrases simples (sujet – verbe -complément), c’est-à-dire que c’est avant tout une façon de concevoir les choses, de les modéliser. Avec un peu de gymnastique cérébrale, tu arriveras sans problème à maîtriser le modèle. Quant à la technique, je t’assommerai avec cela après !

Tout ça a l’air très bien, mais cela va me demander un gros effort : peux-tu me promettre qu’il en vaut la chandelle ?
Pas vraiment, hélas, mais ce que je peux te dire, c’est qu’en ce moment il y a vraiment des choses qui se passent autour de RDF. On en entend de plus en plus parler, y compris dans le domaine de l’industrie et dans celui des bibliothèques. Ce qu’il faudrait, c’est que des gens qui ont de grosses masses de données sous la main les mettent en RDF pour permettre de jouer avec et de voir si ça nous aide à faire décoller nos catalogues. Je ne te cache pas que je compte un peu sur toi, là…

Ok, je vois où tu veux en venir, mais je n’ai pas vraiment envie de me retrouver tout seul à utiliser ce format et ne plus être intéropérable avec ma communauté. C’est important pour nous en bibliothèque.
Je te rassure tout de suite. RDF n’est pas un format. C’est un modèle. Tu peux l’utiliser en conjonction avec des formats très répandus comme le Dublin Core. Tu peux l’exprimer en XML. Et tu ne seras pas tout seul, car contrairement aux formats MARC et leurs dérivés en XML, RDF est commun à beaucoup d’autres communautés que la tienne. C’est encourageant pour l’avenir.

Je te remercie. Peux-tu me donner quelques trucs simples à lire pour aller plus loin ?
Je trouve que ce n’est pas facile de dénicher des présentations très pédagogiques de RDF pour l’instant, surtout en français. Mais j’en ai référencé quelques-unes dans mon précédent billet, en particulier celle sur TEF qui est indispensable.
Tu peux aussi lire RDF pour les nuls et plein d’autres billets sur les Petites Cases (attention, certains sont plus techniques que d’autres… celui-là contient une bibliographie en français.)

RDF et les bibliothèques : avant-goût

Parfois la pensée fonctionne comme un boeuf-carottes : il faut laisser mijoter. Tous les ingrédients sont là avec une saveur simple et claire, mais pas extraordinaire. On a la recette sous les yeux, à première vue il suffit de mélanger. Mais la révélation, le goût subtil, le fumet délicieux, ne vient que bien plus tard, après que ces ingrédients aient été longuements mélangés et tournés dans la cocotte de notre esprit.

C’est à peu près ce qui m’est arrivé ce week-end quand j’ai commencé à regarder SPARQL, le langage de requêtes de RDF. C’était comme de manger un bon repas, après avoir contemplé longuement la recette dans un livre en se disant qu’elle avait l’air bonne, mais au-dessus de ses compétences culinaires. Au final, elle n’était pas si difficile, mais vraiment délicieuse. Je vous la ferai goûter tantôt.

Yann, TEF en RDF, premier essai : l’explication avec la pâte à modeler et les légos, indispensable.
Got, SPARQL, maillon essentiel du « web of data » : maintenant que j’ai essayé, j’ai compris.
Christian, My 2 coins on the “social graph” polemic : remplacez « réseaux sociaux » par « catalogues » et « friend » par « document » et vous verrez le fond de ma pensée.

Et tout est dit. J’aurais bien écrit mon propre billet sur les perspectives merveilleuses et pratiquement illimitées qu’ouvre le RDF pour les catalogues de bibliothèque, mais j’aurais l’impression de ne faire que paraphraser ceux qui ont déjà écrit ces quelques textes, et bien d’autres, de manière bien plus précise et/ou pédagogique que je ne saurais le faire.
Ceci dit je ne jette pas l’éponge. A un moment donné il faudra que je fasse l’effort de l’écrire avec mes propres mots. Je voulais juste leur rendre justice auparavant.

L’arbre de l’intelligence

Il y aurait beaucoup à dire sur le figuier et les religions. Par exemple sa place dans la Bible est importante et de grande notoriété. Par contre, le rôle qu’il a joué dans d’autres religions est parfois moins bien connu : saviez-vous que c’est sous un figuier que Bouddha eut une de ses principales révélations ??? D’où ce surnom d’arbre de l’intelligence ou arbre de sagesse.

Si le genre humain n était pas sauvé comme put le croire à ce moment Siddhârtha du moins une religion nouvelle était fondée Le Bouddha avait alors trente six ans L arbre sous lequel il s assit à Bodhimanda était un figuier de l espèce appelée pippala5 et la vénération des fidèles ne tarda pas à l entourer d un culte fervent dura de siècles0 Dans l année 63a de notre
Journal des savants Par Académie des inscriptions & belles-lettres (France), Institut de France

ou bien

Le Journal des savants, 1854, page 412

Evidemment ce figuier, même s’il est de la même famille, n’a pas grand chose à voir avec son cousin qui nous gratifie de si merveilleux fruits en cette douce saison. Il a des feuilles en forme de goutte se terminant par une pointe.

On l’appelle aussi figuier des pagodes, ou pipal.

Des FIGs dans Facebook

Vraiment, Gerry Mc Kiernan ne pouvait me faire plus plaisir en appelant son nouveau groupe dans Facebook « Facebook Information Group » (FIG). C’est un groupe qui a pour vocation de discuter le remplacement des listes de discussion traditionnelles par des groupes Facebook.

En fait, pas bête : quel meilleur outil que Facebook pour gérer des communautés. On pourrait développer une petite application Facebook reliée avec le système de réservation de places pour savoir où sont ses amis dans la bibliothèque…

PS : vous avez remarqué, j’ai écrit Facebook normalement, c’est plus moi qui paye la bande passante ;-)

Organisation de la préservation numérique dans les BN

Ces derniers temps, quand je réussissais à m’arrêter de courrir deux minutes, je mon plongeais dans la lecture de ceci : Networking for digital preservation. Current practice in 15 national libraries. Rapport d’Ingeborg Verheul de la KB pour l’IFLA en 2006 sur un sondage effectué auprès de 15 bibliothèques nationales dans le monde sur leurs pratiques en terme de préservation numérique.

Je m’intéressais en particulier aux aspects organisationnels, qui sont bien mis en valeur dans ce rapport : que faut-il comme structure, entités, organisation pour savoir faire de la préservation numérique dans une bibliothèque nationale ?
Malheureusement, je manque d’énergie pour structurer vraiment ma pensée mais je vous livre en vrac quelques réflexions qui m’ont été inspirées par cette lecture.

La première, c’est que cette étude a été réalisée pour une section de l’IFLA qui s’appelle ICABS (Ifla-CDNL Alliance for Bibliographic Standards). On pourrait se demander, à priori, pourquoi des gens versés dans le biblographique s’intéresseraient soudain à la préservation numérique… Je crois que la réponse réside dans le fait que la préservation numérique est avant tout une question de bonne gestion de l’information (vous vous souvenez, les fameux « paquets » dans l’OAIS…)

Du coup on pourrait se demander, et la question est soulevée dans le rapport, si la préservation numérique doit vraiment être rapprochée de la conservation « traditionnelle ». Jusqu’à un certain point, elles jouent dans des cours bien différentes, mais elles peuvent avoir une méthodologie partagée (je pense par exemple à la gestion des risques).

D’une façon générale, le rapport rappelle à plusieurs reprises que la préservation numérique met en jeu des activités trop diversifiées pour qu’elles puissent être centralisées dans un seul service (aquisitions, catalogage, gestion de collection, informatique notamment). De fait, si les 15 bibliothèques interviewées ont toutes au moins une entité dédiée au numérique, aucune n’y concentre la totalité de son activité de préservation numérique. En fait il y a un phénomène d’évolution dans le temps : plus on est proche de la phase de démarrage, plus l’organisation est centralisée. Ensuite, quand l’activité de préservation numérique tend à entrer en phase de mise en oeuvre et de gestion quotidienne, les responsabilités sont de plus en plus réparties dans la bibliothèque en fonction de compétences déjà existantes. De plus la plupart de ces bibliothèques se dotent également de structures transverses telles que des groupes de travail dont le but est « d’ancrer la préservation numérique dans le quotidien futur de la bibliothèque, grâce à la coopération et au partage des connaissances ».

Certes, on a un peu l’impression d’enfoncer des portes ouvertes mais parfois ça va mieux en le disant.
En annexe, on trouve tous les organigrammes des bibliothèques interviewées ce qui est assez instructif aussi. On y découvre que la propension à une profusion organisationnelle parfois difficile à décrypter pour un oeil externe est une caractéristique partagée pour ce type d’établissement…