La restauration numérique en question

Je me fais ici l’écho d’un débat vite passé sur la liste biblio-pat (pour les bibliothécaires patrimoniaux, dont je considère que je fais partie même si mon patrimoine est souvent numérique…)

La BIUM présente ici une expérience de restauration numérique : il s’agit de numériser des ouvrages des documents particulièrement précieux, fragiles, endommagés ou difficiles à photographier. Confiés à un photographe, les clichés ont été largement retouchés, recollés, réassemblés et retravaillés pour obtenir des clichés plus vrais que nature, « en visant un retour vers l’apparence qu’il pouvait avoir quand le temps ne l’avait pas encore dégradé ».

Réaction immédiate d’un collègue dont je ne citerai pas ici les nom et qualité, mais dont j’ai trouvé les arguments assez justes : il oppose le principe de la restauration, tel qu’on le conçoit aujourd’hui. Elle doit prendre en compte l’inscription du document dans le temps plutôt que chercher à la gommer, elle doit respecter l’historicité des objets. La reproduction se doit d’être fidèle à l’original tel qu’il est, et pas tel qu’il aurait dû ou pu être.

Pour ma part, j’observe simplement que les clichés mis en ligne par la BIUM sont magnifiques, et donc le travail du photographe concluant. A la limite, il faudrait pouvoir les comparer avec les prises de vue « brutes » de numérisation pour juger de l’ampleur des modifications.

En principe, je suis plutôt favorable à une numérisation respectant la réalité de l’original, et donc ses défauts, ses manques, bref son intégrité. Ca doit être mon côté chartiste. Toutefois ce n’est pas la première fois que je vois ou entends parler de ce type de restauration numérique. Combien de lecteurs se plaindront effectivement de cette distance entre l’original et la copie ? Bien peu, finalement, et en tout cas moins que de lecteurs qui se plaindront d’une numérisation tâchée, abimée et illisible.

Si vous avez un avis sur la question…

Les identifiants, c’est important

Ca fait longtemps que je le dis, et je l’ai encore répété récemment aux Journées Réseaux (JRES 2007) à Strasbourg, les identifiants, c’est important.

Quand on met quelque chose en ligne, il faut faire attention à ses identifiants, à tous les niveaux : l’objet, le document, la portion de document, la page. Quand on met quelque chose en ligne, il faut toujours penser que les gens vont en stocker l’adresse et essayer de le retrouver plus tard.

Si en plus on fait le malin en proposant des fonctionnalités de type « widget » qui permettent de citer quelque chose d’encore plus petit qu’une page, par exemple, un morceau d’image, il faut faire encore plus attention à ses identifiants. Parce que sinon ça donne ça :

et quand on essaye d’accéder au document, ça donne ça :

Et quand même, c’est pas pérenne, c’est pas propre, c’est indigne d’une bibliothèque numérique. Mais au fait : ce n’est pas une bibliothèque numérique. Alors, on les pardonne ? Ben… en fait non.

Le catalogue en prison

A l’origine, le catalogue était un meuble, composé de tiroirs et de fiches, trônant dans la salle de référence. Pour le consulter, il fallait s’y rendre. Les données étaient prisonnières d’un objet.

Alors, on a fait des catalogues imprimés : diffusés en plusieurs exemplaires, on pouvait les consulter à distance. Mais c’étaient toujours des catalogues en papier, uniquement compréhensibles pour les yeux avisés de lecteurs humains. Les données étaient prisonnières d’un support.

Alors, on a fait des SIGB : informatisées, les données devenaient manipulables par machine ce qui facilitait grandement leur accès, leur gestion, leur production. Mais le SIGB était une boîte noire, rigide, parfois incompréhensible : les données étaient prisonnières d’un logiciel.
Les SIGB libres ont été un espoir qu’on pourrait ouvrir la boîte, mais ça n’a pas pris. Sans doute parce que ça n’en valait pas l’investissement : même si on pouvait, grâce au code source ouvert, tourner une vis ici, ajuster un boulon là, les données étaient toujours prisonnières de la base de données.

Alors, on a créé les formats standards et les protocoles d’échange. Grâce à eux, on peut sortir les données du SIGB pour les échanger ou les réutiliser. Mais malgré l’étonnante capacité de notre communauté à se normaliser et se contraindre elle-même, il y avait toujours une étiquette de champ inapropriée, un $a appliqué de manière différente, un indicateur vide avec un sens particulier, une donnée locale non standard. Les protocoles sont toujours une barrière, un passage obligé pour faire sortir – aux forceps – les données.
Ajuster les mappings entre les formats et paramétrer les protocoles est une opération horriblement complexe, et coûteuse. Ou alors, elle « lave plus blanc » en nivelant les données par le bas, les privant de leur richesse.
Les données sont prisonnières de leur propre structure.

Arrive le Web sémantique. En atomisant la structure des données, il les rend toutes égales, et libres.

Au-delà des formats et des protocoles, le Web sémantique a le pouvoir de vraiment libérer les données. Libres, nos données seront plus riches, plus pérennes, plus interopérables. Osons redonner le pouvoir aux données.

La fin des temps

– […] Moi, pour expliquer ça simplement, je suis mêlé à la guerre de l’informatique. Autrement dit, je suis le chaînon manquant entre maintenant et le moment où les ordinateurs auront une personnalité. Un expédient temporaire, quoi.

– Les ordinateurs auront une personnalité un jour ?

– Peut-être. Et comme ça ils pourront eux-mêmes brouiller leurs données et les reprogrammer, et personne ne pourra voler les informations.

[…]

– Je ne comprends pas très bien, dit-elle […]. Parce qu’une bibliothèque c’est un endroit tellement paisible. Il y a plein de livres, et tout le monde vient les lire, c’est tout. Les informations sont ouvertes à tous et personnes ne se bat pour elles.

– J’aurais dû travailler dans une bibliothèque.

Haruki Murakami, La fin des temps (1985).

Je vous recommande la lecture de ce bouquin génial, qui vous montrera la bibliothèque plus poétique, étrange, sereine, poussiéreuse, riche, utile et romantique que vous ne l’avez jamais vue. D’une façon générale, il faut lire du Murakami, et celui-là en particulier. C’est essentiel à la vie.

RDF et les bibliothèques, biblio

Tiens c’est marrant je ne suis plus toute seule :

Semantic Libraries, a change of direction ? puis Semantic Web – A Librarian’s perspective sur Panlibus
The Semantic Web as a large, searchable catalogue: a librarian’s perspective cité par le précédent et re-cité par Pintini
– du côté des geeks, Darcus Blog s’amuse avec RDF et Worldcat
– et font les louanges de MARC comme format pour préparer le Web sémantique

On dirait que c’est dans l’air du temps. C’est l’occasion de parler à nouveau de MarcOnt qui essaye d’utiliser MARC21 et Dublin Core pour faire des ontologies.

RDF et les bibliothèques : FAQ

Ok, c’est un non-sens de parler de « FAQ » pour un sujet sur lequel jamais personne ne pose de questions. Disons que voici quelques réponses aux questions que je me pose souvent à moi-même ;-)

C’est quoi, déjà, RDF ?
Comme son nom l’indique, c’est un cadre de description de ressources. C’est un modèle conceptuel qui permet de décrire des choses. Toutes sortes de choses.

Je suis bibliothécaire. En quoi suis-je concerné par RDF ?
Comme dit, RDF sert à décrire des choses. Or, les bibliothécaires décrivent des choses. Tu es donc très très concerné, cher ami.

Admettons. Peux-tu me dire à quoi RDF pourrait me servir, par exemple ?
Eh bien, par exemple, RDF pourrait te permettre d’améliorer la façon dont tu décris les choses. Non seulement les livres, mais aussi les ressources en ligne, les lieux, les gens, les concepts.

Alors, RDF peut m’aider à améliorer mon catalogue ? Comment ?
Aujourd’hui, ton catalogue est conçu sous la forme de fiches : des fiches bibliographiques, des fiches d’autorité… Toutes ces fiches sont informatisées bien sûr, mais la base de données que tu appelles catalogue fonctionne elle-même comme une collection de fiches.
En conséquence, chaque information qui figure sur une fiche (dans une notice, si tu préfères, que ce soit une notice bibliographique ou une notice d’autorité) n’est compréhensible que dans cette fiche. Si tu l’en sors, tu perds toutes les relations implicites qu’elle entretient avec les autres informations de la notice.
Si tu utilisais RDF pour décrire tes ressources, tu n’aurais plus des fiches mais des données, ce qui veut dire que chaque petit élément de description à l’intérieur de chaque fiche serait explicitement relié à tous les autres, et aurait une signification par lui-même. Tes données seraient beaucoup plus puissantes, indépendantes, libres.

D’accord, alors RDF améliore mes données?
Pas du tout. RDF ne fait que les représenter différemment. Tes données sont déjà très bien : elles utilisent un format complexe et structuré, le format MARC, qui contient déjà beaucoup d’informations intéressantes en expliquant à quoi elles servent (grâce aux fameux $a etc…) RDF ne va pas améliorer tes données, seulement les aider à travailler davantage.

Oui mais… Je ne suis même pas encore passé à XML. Tu ne crois pas que c’est un peu tôt pour regarder RDF ?
Diable non. RDF n’est pas un concurrent de XML. En théorie, tu pourrais complètement sauter l’étape XML. En pratique, c’est vrai que ce sera plus facile si tu sais déjà exprimer tes données en XML.

Alors c’est quoi, la différence entre RDF et XML?
Il y en a de nombreuses. Pour ne pas t’embrouiller, je vais simplement te dire que XML permet de réprésenter tes données sous forme d’arbre, suivant une hiérarchie. L’objet que tu décris (par exemple, un livre) est à la racine de l’arbre. Les éléments de ta notice sont ses branches et ses feuilles.
Avec RDF, tu représentes tes données sous forme de graphe, avec des liens entre les données. Imagine que ta notice est une étoile ; ce que tu décris est au milieu, et chaque élément de description est à la pointe d’une branche. Avec RDF, non seulement tu peux choisir ce que tu mets au centre de ton étoile (un livre, ou une personne, un sujet, un lieu, autre chose), mais en plus, tu ne te contentes pas de suivre le chemin le long des branches, tu sais où tu vas car les relations entre tes données sont typées. Tu peux aussi te promener d’étoile en étoile en cheminant le long des branches.

Autre chose, j’ai entendu parler des FRBR… Est-ce que RDF va m’aider à FRBRiser mon catalogue ?
Mmh, oui et non. Comme je te le disais, RDF ne va pas améliorer tes données. Donc s’il manque des choses dans tes données, comme la notion d' »oeuvre » dans les FRBR, elles manqueront toujours. Par contre, la façon de représenter tes données en RDF est beaucoup plus proche de FRBR que tes notices classiques, justement grâce au principe du graphe et parce que les relations sont explicites et typées.

C’est vraiment super ! Mais quand je lis « RDF – OWL – SPARQL – SKOS – N Triple » et des trucs comme ça, je me dis que tout cela est vraiment trop compliqué pour moi. Non ?
Evidemment, je te mentirais si je te disais que tu vas t’en sortir en un jour avec toutes ces notions et les technologies qui y sont associées. Mais il faut aussi se souvenir que RDF c’est avant tout exprimer les données sous forme de phrases simples (sujet – verbe -complément), c’est-à-dire que c’est avant tout une façon de concevoir les choses, de les modéliser. Avec un peu de gymnastique cérébrale, tu arriveras sans problème à maîtriser le modèle. Quant à la technique, je t’assommerai avec cela après !

Tout ça a l’air très bien, mais cela va me demander un gros effort : peux-tu me promettre qu’il en vaut la chandelle ?
Pas vraiment, hélas, mais ce que je peux te dire, c’est qu’en ce moment il y a vraiment des choses qui se passent autour de RDF. On en entend de plus en plus parler, y compris dans le domaine de l’industrie et dans celui des bibliothèques. Ce qu’il faudrait, c’est que des gens qui ont de grosses masses de données sous la main les mettent en RDF pour permettre de jouer avec et de voir si ça nous aide à faire décoller nos catalogues. Je ne te cache pas que je compte un peu sur toi, là…

Ok, je vois où tu veux en venir, mais je n’ai pas vraiment envie de me retrouver tout seul à utiliser ce format et ne plus être intéropérable avec ma communauté. C’est important pour nous en bibliothèque.
Je te rassure tout de suite. RDF n’est pas un format. C’est un modèle. Tu peux l’utiliser en conjonction avec des formats très répandus comme le Dublin Core. Tu peux l’exprimer en XML. Et tu ne seras pas tout seul, car contrairement aux formats MARC et leurs dérivés en XML, RDF est commun à beaucoup d’autres communautés que la tienne. C’est encourageant pour l’avenir.

Je te remercie. Peux-tu me donner quelques trucs simples à lire pour aller plus loin ?
Je trouve que ce n’est pas facile de dénicher des présentations très pédagogiques de RDF pour l’instant, surtout en français. Mais j’en ai référencé quelques-unes dans mon précédent billet, en particulier celle sur TEF qui est indispensable.
Tu peux aussi lire RDF pour les nuls et plein d’autres billets sur les Petites Cases (attention, certains sont plus techniques que d’autres… celui-là contient une bibliographie en français.)

Organisation de la préservation numérique dans les BN

Ces derniers temps, quand je réussissais à m’arrêter de courrir deux minutes, je mon plongeais dans la lecture de ceci : Networking for digital preservation. Current practice in 15 national libraries. Rapport d’Ingeborg Verheul de la KB pour l’IFLA en 2006 sur un sondage effectué auprès de 15 bibliothèques nationales dans le monde sur leurs pratiques en terme de préservation numérique.

Je m’intéressais en particulier aux aspects organisationnels, qui sont bien mis en valeur dans ce rapport : que faut-il comme structure, entités, organisation pour savoir faire de la préservation numérique dans une bibliothèque nationale ?
Malheureusement, je manque d’énergie pour structurer vraiment ma pensée mais je vous livre en vrac quelques réflexions qui m’ont été inspirées par cette lecture.

La première, c’est que cette étude a été réalisée pour une section de l’IFLA qui s’appelle ICABS (Ifla-CDNL Alliance for Bibliographic Standards). On pourrait se demander, à priori, pourquoi des gens versés dans le biblographique s’intéresseraient soudain à la préservation numérique… Je crois que la réponse réside dans le fait que la préservation numérique est avant tout une question de bonne gestion de l’information (vous vous souvenez, les fameux « paquets » dans l’OAIS…)

Du coup on pourrait se demander, et la question est soulevée dans le rapport, si la préservation numérique doit vraiment être rapprochée de la conservation « traditionnelle ». Jusqu’à un certain point, elles jouent dans des cours bien différentes, mais elles peuvent avoir une méthodologie partagée (je pense par exemple à la gestion des risques).

D’une façon générale, le rapport rappelle à plusieurs reprises que la préservation numérique met en jeu des activités trop diversifiées pour qu’elles puissent être centralisées dans un seul service (aquisitions, catalogage, gestion de collection, informatique notamment). De fait, si les 15 bibliothèques interviewées ont toutes au moins une entité dédiée au numérique, aucune n’y concentre la totalité de son activité de préservation numérique. En fait il y a un phénomène d’évolution dans le temps : plus on est proche de la phase de démarrage, plus l’organisation est centralisée. Ensuite, quand l’activité de préservation numérique tend à entrer en phase de mise en oeuvre et de gestion quotidienne, les responsabilités sont de plus en plus réparties dans la bibliothèque en fonction de compétences déjà existantes. De plus la plupart de ces bibliothèques se dotent également de structures transverses telles que des groupes de travail dont le but est « d’ancrer la préservation numérique dans le quotidien futur de la bibliothèque, grâce à la coopération et au partage des connaissances ».

Certes, on a un peu l’impression d’enfoncer des portes ouvertes mais parfois ça va mieux en le disant.
En annexe, on trouve tous les organigrammes des bibliothèques interviewées ce qui est assez instructif aussi. On y découvre que la propension à une profusion organisationnelle parfois difficile à décrypter pour un oeil externe est une caractéristique partagée pour ce type d’établissement…

Nouvelles fonctionnalités de Google Books Search

En plus de l’affichage du texte OCRisé, que j’avais mentionné dans la rubrique « en bref » :

  • on peut sélectionner une portion d’image et la bloguer, la verser dans Google docs, ou la citer dans une page HTML, en texte ou en image
  • on peut créer des listes de documents personnelles (ma bibliothèque), les RSSifier, les exporter en XML bizarre,
  • dans ma bibliothèque, on peut mettre des commentaires et des tags (« libellés » qu’ils ont traduit ça !!!) sur un livre, et même le noter avec des étoiles,
  • on peut aussi importer des listes de livres en entrant leur ISBN,
  • on peut, paraît-il, partager tout cela avec ses amis (je n’ai pas trouvé la fonctionnalité, je ne dois pas avoir suffisamment d’amis…)
  • bien sûr, on peut faire une recherche sur le contenu de sa bibliothèque.

C’est fou ce qu’ils ont comme idées. On se demande où ils vont chercher tout ça…

Recette du Web sémantique à l’usage des bibliothèques nationales

Pour réussir cette recette, vous aurez besoin de :
– 2 kg d’identifiants pérennes (les URIs, de préférence sympas, ont la meilleure saveur)
– un bon morceau de vocabulaire contrôlé (vous pouvez en panacher plusieurs)
– un chapelet d’interfaces de recherche
– assaisonnement : des FRBR, des notices bibliographiques, du Dublin Core, du RDF et autres selon votre goût.

Prenez votre Bibliothèque nationale et cuisinez son catalogue à feu doux. Faîtes revenir les URI avec résolution vers les ressources, au niveau « manifestation » et « expression » des FRBR.
Passez vos notices bibliographiques au tamis de RDF (vous pouvez utiliser pour cela un Dublin Core bien affûté). Ensuite, ajoutez les interfaces : si vous avez déjà du Z3950 ou de l’OAI-PMH, ce n’est pas si mal, mais pour obtenir un résultat vraiment réussi vous aurez besoin de SPARQL.
Dans un récipient à part, SKOSifiez votre vocabulaire contrôlé. Si vous en avez plusieurs, vous pouvez les aligner.
Les plus audacieux serviront ce merveilleux plat avec un assortiment d’articles de Wikipedia.

Cette recette a été expérimentée par les allemands. Niveau : moyen à difficile. Temps de préparation : plusieurs mois, voire années.
Source de la recette :
National Libraries and the Semantic Web: Requirements and Applications
par
Lars G. Svensson, présenté à International Conference on Semantic Web and Digital Libraries en 2007 (acceptez le certificat pour aller à l’article).

Merci au toujours essentiel FRBR blog.

Quelques publications

Quand je ne suis pas occupée à écrire ce blog, il m’arrive parfois d’écrire ailleurs ; cela me semble utile de référencer un peu de cette bibliographie ici en vue de potentiels usages futurs. Ainsi j’ai été hébergée deux fois par la revue IPN, qui est la publication de la section Préservation de l’IFLA (plus connue sous le petit nom de « IFLA-PAC »).

La première fois c’était en décembre 2006 pour un article sur les identifiants pérennes qui est en fait une reprise de celui-ci, mais dans IPN il y a une traduction en anglais.

La seconde fois était dans le numéro de juillet 2007, où j’ai écrit une petite introduction sur la gestion des risques. C’était en fait une version rédigée de ce que j’ai présenté au Symposium IFLA PAC, intervention dont on peut consulter le diaporama ici.