Confiture de belles images

Dans la série retrouvons le plaisir de surfer ailleurs que sur les blogs, voici quelques ressources intéressantes dans le domaine de l’histoire du livre, avec plein de jolies choses numérisées…

  • un site qui réunit des plans anciens de Paris numérisés, avec un bon outil de zoom pour les consulter
  • un site qui permet de trouver des cartes de Rome
  • un joli site plein de belles images sur l’histoire du livre et de l’édition à l’époque moderne : Textes rares
  • le site personnel de D. Varry où on trouve de nombreuses ressources en histoire du livre et en particulier en bibliographie matérielle.

Parmi ces dernières je vous recommande tout particulièrement la base de données catalane de marques d’imprimeurs, très pratique et où on trouve plein de jolies choses comme cette licorne de Kerver…

Figuiers de Bourgogne

Le week-end dernier on était en Bourgogne et bien que ce ne soit pas forcément évident, j’ai réussi à vous trouver quelques figuiers. Ils n’étaient pas super en forme compte tenu de la saison mais je trouve que cette couleur jaune leur sied pas mal.

Les photos viennent de :

  • Montréal, un village qui nous a un peu déçu mais ce figuier était sans aucun doute le plus beau de la région
  • Noyers-sur-Serein – un des plus beaux villages de France
  • Alise-Ste-Reine, juste en dessous de la statue de Vercingétorix qu’il faut absolument aller voir, c’est démentiel de kitsh napoléonien
  • et Semur-en-Auxois

Image associée au billet

Image associée au billet

Image associée au billet

Préservation et droits des documents numériques

Rapidement avant que cela ne se perde dans les méandres de mes vacances qui commencent demain :-) voici quelques liens et nouvelles d’intérêt dans des domaines liés à la gestion des documents numériques.

Préservation

les archives nationales anglo-saxones annoncent une nouvelle version de Pronom, la base de données qui répertorie les formats. Ces formats reçoivent un identifiant pérenne, le PUID. On nous annonce aussi l’outil DROID qui permet de détecter le format d’un document en le confrontant aux informations stockées dans Pronom.
A quoi tout cela sert-il, me direz vous ; je ne vais pas entrer dans les détails, mais ça peut être très pratique quand on doit conserver sur le très long terme des documents numériques en masse qu’on n’a pas produit soi-même.
Tout ceci est très bien expliqué sur Ten Thousand Years blog.

Le projet ADAPT est un projet qui vise à construire les modules d’une architecture de préservation distribuée. Ca utilise les Web services et les technologies de grid computing : sounds good. Même source.

Enfin un peu de lecture : cet article repéré par Digitization 101 traite du modèle OAIS en essayant d’en donner une vision applicative ; en fait ça a l’air de parler beaucoup de LOCKSS – un système de préservation qui lui est basé sur du P2P !

Droits

On va nous aider à gérer nos droits numériques ! C’est du moins ce qu’on promet aux bibliothèques dans cet article. Et devinez qui nous offre cela ? Les EDItEUR ! (elle est bonne celle-là). Tout cela tourne autour du format de métadonnées ONIX.

Un petit dernier, encore via Digitization 101, il s’agit d’un rapport sur la meilleure façon d’acquérir des droits pour numériser des ouvrages. L’auteur semble être lié au Million Book project.

Me voilà prête pour les vacances, je passerai peut-être dans le coin mais sans doute pas pour raconter des choses sérieuses. Et sinon à vendredi prochain.

Chez OCA on repeint la façade

En fait ce n’est pas une façade, ni même une vitrine, mais carrément une vision que l’on peut trouver sur le site The open library.

Une vision d’un monde séduisant aux couleurs compassées, dans lequel on choisit un livre à la couleur de sa couverture, dans lequel les pages virtuelles des livres numériques se tournent comme en vrai, dans lequel rien ne vient polluer la lecture, ni menu, ni navigation intempestive. La recherche plein-texte ajoute des petits signets jaunes entre les pages, les métadonnées s’affichent sous la forme d’une fiche cartonnée, à l’ancienne, il y a même le trou pour le tringlage.

So librarian !

(Ca me fait penser à la ville de Spectre dans Big Fish de Tim Burton.)

Cette vision, c’est peut-être ce que nous offrira demain l’OCA, forte déjà de ses nouveaux partenaires.

Pour ceux qui n’auraient pas encore complètement saturé, je recommande la lecture de l’article de JM Salaün, qui fait bien le tour de la question "Google print" en la remettant dans son contexte, économique en particulier.
A noter aussi, le mémoire de Delphine Berroneau intitulé Les bibliothèques numériques. D’hier à aujourd’hui, la transmission d’un savoir. (master soutenu à Poitiers en 2005). Malgré un peu de légèreté concernant certains points de l’analyse, on y trouve une bonne définition de ce qu’est une bibliothèque numérique, et une pertinente mise en contexte au niveau francophone. (Via JB Soufron.)

RDF et les bibliothèques

Ce billet est une réponse au billet de Got . Son blog n’a pas de commentaires, et même s’il en avait, je ne serais pas allée raconter tout ça dedans ;-)

(…) RDF est sans aucun doute une solution prometteuse pour la diffusion, l’exploitation et l’échange des métadonnées, notamment sous la syntaxe XML (RDF/XML). C’est précisément sa raison d’être. Dans le cas de TEF, en particulier, il permettra à terme une exploitation multiple des notices TEF en l’état, sans obliger à les convertir dans un vocabulaire plus répandu comme Dublin Core notamment. Il faudra pour cela associer les notices TEF à un schéma RDF ou OWL qui précisera les relations sémantiques entre les éléments de TEF et, par exemple, les éléments du Dublin Core ou les propriétés des FRBR. Par ailleurs, formaliser TEF en RDF permettra d’expliciter la structure conceptuelle de TEF, notamment le fait qu’une notice TEF porte sur plusieurs entités (la thèse comme texte validé, les éditions, l’auteur, le jury…). Malgré ces atouts, investir dans une solution RDF est apparu comme prématuré. Etant donné les premiers usages prévisibles des notices TEF (échange de notices validées, conversion en DC-OA, en Unimarc), le supplément de complexité apporté par RDF/XML semble superflu tant que les applications et les données RDF ne sont pas plus répandues. En d’autres termes, la formalisation RDF de TEF est souhaitable, mais non prioritaire.

Ce paragraphe, tiré de la recommandation TEF, illustre parfaitement à mon sens la raison pour laquelle RDF n’est pas adopté (ni susceptible de l’être dans les prochaines années) dans les bibliothèques. Il y a toujours quelques précurseurs, comme il y en a eu pour XML, et leur rôle est d’expérimenter ces technologies et d’en faire des applications limitées. Ensuite, selon la pertinence de ces actions, l’industrie s’approprie la technologie ce qui lui donne une chance de se répandre vraiment. Or pour RDF, on n’en est pas encore là.

La réflexion sur RDF n’est pas absente des bibliothèques. Pour l’instant elle tourne essentiellement autour des FRBR, avec une réflexion sur la RDFisation du modèle (cf ce diaporama de Ian Davis), d’ailleurs très intéressante. Le schéma RDF pour les FRBR est proposé par Ian Davis et Richard Newman, ce dernier également auteur d’un projet sur les FRBR et l’annotation des images. Autre piste, la convergence avec le CRM-CIDOC, vaste ontologie du "cultural heritage" c’est à dire du patrimoine. Ceci donne à penser qu’il n’y a pas une manière canonique de RDFiser les FRBR, mais probablement plusieurs pistes possibles dont on peut espérer qu’une initiative sérieuse se dégagera.

D’autres axes de travail sont à noter même s’ils n’abordent pas de manière directe la question de RDF. Ainsi, les anglo-saxons sont en train de travailler sur une évolution du modèle AACR (équivalent plus ou moins de notre ISBD) vers quelque chose de nouveau qui s’appelle RDA. On ne me fera pas croire que la ressemblance des sigles est un hasard, même si RDF n’est écrit nulle part. Pour mémoire, les AACR – ISBD sont des normes qui décrivent le contenu de la description bibliographique et non sa structure ; c’est la sous-couche de MARC. En gros, l’ISBD dit que le titre c’est ce qui figure sur la page de titre, pas que ça doit être codé en 200. Le principe de RDA introduit quelques nouveautés intéressantes, présentées comme particulièrement pertinentes dans le domaine du numérique :

  • la prise en compte de métadonnées techniques en plus des métadonnées descriptives
  • la séparation nette de l’enregistrement des métadonnées et de leur présentation
  • on remarquera qu’en plus de la description et des accès, on a ajouté des relations (tiens donc).

En fait tout cela repose sur les FRBR et les FRAR (équivalent des FRBR pour les autorités).

Dans un autre genre, on lira dans ce très pertinent article du BBF sur Rameau et son évolution, la phrase suivante :

Ce que nous proposons en l’espèce revient, en fait, à construire des « ontologies » (au sens d’organisations structurées de la connaissance) par domaines et sous-domaines, au sein d’une liste d’autorités qui resterait commune, dont le caractère homogène serait préservé, et qui finirait par constituer elle-même une manière d’ontologie encyclopédique, en raison du réseau des liens sémantiques établi entre les vedettes …

A nouveau, on sent comme un appel à RDF (ou OWL), même s’il est ténu.

Donc finalement où est le problème ? Il n’est certainement pas dans la volonté. Des pistes de réflexion existent, mais la mise en oeuvre est une étape ultérieure et il n’y a pas d’application immédiate. L’autre problème c’est que 90% des bibliothécaires n’ont aucune idée de ce que sont les FRBR, et parmi le restant, beaucoup n’ont jamais entendu parler de RDF, ou n’ont aucune idée de ce que c’est et de comment ça marche.
En ce qui concerne la recherche bibliothéconomique et la naissance d’initiatives au sein d’institutions comme l’IFLA par exemple (en dehors de la veille pure, qu’on peut observer sur ce sujet au sein des conférences IFLA depuis 1999 environ), cela reste illusoire tant que RDF n’est pas une composante d’un applicatif immédiat.
Les geeks ont donc peut-être raison de pleurer en disant que RDF va disparaître faute d’être implémenté, mais ils ne réussiront pas à me faire culpabiliser (en tant que bibliothécaire). Notre métier nous impose un certain nombre de contraintes, parmi lesquelles je ne citerai que deux exemples : le poids de la masse documentaire accumulée depuis très très longtemps et en perpétuel accroissement, et celui de 5 siècles (au moins) de descriptions bibliographiques à rétroconvertir. Nous ne pouvons pas nous permettre d’implémenter quelque chose et de recommencer 5 ans plus tard, compte tenu de la quantité de données à manipuler et transformer à chaque fois. Ce poids de l’existant nous oblige à faire un choix entre deux voies :

  • soit développer des formats propres à notre communauté dont on sait qu’ils s’appliqueront à l’existant – c’est ce que nous avons fait avec MARC (je dis nous, mais j’étais même pas née, ou presque) – efficace mais c’est pas ce qu’on fait de plus interopérable,
  • soit fournir l’énorme effort de traîner notre machinerie derrière des formats existants, mais alors, il faut qu’ils aient fait leurs preuves, sinon l’investissement représente une prise de risque trop élevé – ce qui fera de nous des éternels mammouths traînards, mais cela vaut peut-être le sacrifice.

Pour que les bibliothèques puissent s’approprier RDF, il faudrait d’abord que RDF montre ce qu’il sait faire, prouve qu’il est essentiel pour nous aider à faire ce qu’on fait (ou ce qu’on veut faire), qu’il pourra être intégré dans des solutions industrielles par nos chers fournisseurs de SIGB (ou d’autres)… en bref, on n’apprivoise pas un mammouth juste avec des mots ;-) alors montrez-leur, montrons-leur.

PS : en relisant le billet de Got, je m’aperçois que je ne réponds pas vraiment à la question, et qu’on entre dans des débats sans fin du type l’oeuf ou la poule. Pour conclure, je ne remets pas en cause l’utilité de RDF pour représenter les métadonnées. Je dis juste que ce n’est pas évident à appliquer dans notre communauté.

Confiture de liens spéciale jeunesse

Ces derniers temps, ayant commencé à entendre les mots « Internet », « blog » et autres sortir naturellement de la bouche de ma mini beta-testeuse, je me suis mise en quête de nouvelles activités à faire avec elle sur le Web. En ces temps de vacances, je vous propose de les partager ici…

  • les jeux de Lulu : plein de jeux tout simples, souvent éducatifs, qui remportent un succès certain malgré leur aspect sobre
  • sur le site Takatrouver, une rubrique de jeux mais qui s’épuise rapidement. Le jeu des associations reste une valeur sûre.
  • Decod’Art : un magazine trimestriel pour découvrir l’art, alliant le joli à l’agréable.

Et maintenant, dans la rubrique pas encore testé :

  • les jeux de Kidado
  • le site de Caat, il y aussi des jeux dans la rubrique "web works"
  • la très jolie pâte à sons

Spéciale dédicace à Marlène ;-) et merci à Mimi et à d’autres.

Confiture de mots-clef

Je pars quelques jours loin de Paris, du boulot, de la civilisation et accessoirement de mon ordinateur. Pour m’excuser de cette absence intempestive (qui est finalement à l’image de mon activité bloguesque ces derniers temps), je vous propose une courte analyse des pratiques documentaires des lecteurs de ce blog en termes d’utilisation des moteurs.

Tout d’abord, bienvenue aux 12% d’internautes qui arrivent ici en cherchant « figues », « confiture de figues », ou « légumes d’automne ». J’espère que vous trouverez votre bonheur, en tout cas merci de faire augmenter substantiellement mes stats depuis deux mois.

Et maintenant quelques messages personnels : pour les personnes qui ont cherché…

  • « notices stupides » : veuillez consulter n’importe quel catalogue de bibliothèque
  • « lodel openurl » : pas encore, désolée, Lodel ne fait que le café
  • "c’est quoi la norme oais?" : c’est un modèle fonctionnel qui décrit un système ouvert d’archivage de documents numériques. A consulter ici. Plus d’infos ici.
  • « comment referencer document google scholar » : héhé… si je le savais, je ferais payer très cher la réponse ;-)
  • « comment créer une pizzeria » : euh… là je sèche, quelqu’un a une idée ?
  • « cible de la confiture » : évidemment, en privilégiant l’optimisation des compétences dans l’optique managériale de la confiture, le paradigme de la pectine peut être pris en compte comme une dimension heuristique essentielle si la figue confère l’obtention du paramètre ciblé par les objectifs.
  • « coloriages de figues » : si vous en avez trouvé, je veux bien l’adresse !
  • « tout savoir sur les blogs sur internet » : ya du boulot
  • "document sur la vision d’une mouche en particulier ses yeux" : euh je suppose que c’est pas ça que vous cherchiez ???
  • "coloriages des winx" : par là
  • « intelligence artificielle de lapin » : nan mais je vous en prie, hein ! pas d’insultes quand même !

Bon week end à tous !

L’âme de fonds

J’ai entendu il y a peu l’assertion suivante : le mauvais chercheur est celui qui sait ce qu’il va trouver. Or, dans le domaine du numérique, il est de plus en plus difficile de chercher au hasard : si on traduit cela en termes bibliothéconomiques, on pourrait se demander s’il faut savoir ce qu’on cherche pour avoir une chance de le trouver.

Dans la vénérable institution où j’ai été formée, on m’a appris à ne jurer que par le dépouillement systématique, et que seuls les cancres rédigent leur bibliographie en interrogeant les catalogues de bibliothèque par sujet. Avec l’expérience, j’ai appris à nuancer largement cette façon de penser, mais je continue de croire que dans certains cas, le dépouillement est la seule approche possible, non seulement dans les archives, mais aussi dans les bibliothèques. Parfois, c’est "l’âme de fonds" qui prime, même s’il ne s’agit pas d’un fonds à proprement parler : la collection, la façon dont elle s’est constituée, et son organisation sont les meilleurs atouts pour trouver les documents.

Les collections de manuscrits, dans les bibliothèques, sont de bons exemples. Les catalogues de manuscrits de la BnF (dont on peut consulter une version numérique ici) présentent une organisation systématique qui reflète l’entrée des documents dans la collection et qui est compliquée à appréhender. Si je vous parle des manuscrits français n° 20065-22884, cela n’est pas très évocateur. Pourtant, le catalogue qui les décrit est essentiel pour l’histoire du livre, car ces volumes contiennent les privilèges de librairie de l’époque moderne. Pour savoir cela, seules trois méthodes sont possibles : soit dépouiller systématiquement les catalogues de manuscrits de la BnF (bon courage !), soit dépouiller les index et les tables de ces catalogues, soit glaner cette information chez un autre historien (tâche qui sera peut-être facilitée désormais grâce au Figoblog et à Google ;-).

Un autre exemple, encore plus parlant, est celui de la recherche d’images. Dans un ouvrage récemment publié par le Getty sous le titre Introduction to Art Image Access (librement accessible en ligne), on peut lire d’intéressantes idées sur la façon dont on créée et on utilise les accès sujet quand on catalogue des images. Suivant la définition de l’historien de l’art Panofsky (Essais d’iconologie : thèmes humanistes dans l’art de la Renaissance, Paris : Gallimard, 1967) il y a trois niveaux possibles de description, qui sont, du plus objectif au plus subjectif :

  • la description : par exemple, une femme avec un bébé dans les bras
  • l’identification : par exemple, une Vierge à l’Enfant
  • l’interprétation : par exemple… ben non justement.

On ne peut pas prévoir toutes les interprétations possibles d’une image, même en faisant un gros effort pour se mettre à la place du chercheur. Ces interprétations sont innombrables, et elles peuvent changer dans le temps.

Alors, comment faire pour que les bons chercheurs n’en viennent pas à se distinguer par leur capacité à imaginer un maximum de mots-clef différents, plutôt que par leur travail ?
Pour moi, la solution se décline en trois :

  • inventer des interfaces pratiques qui permettent de parcourir, de butiner l’ensemble de la collection, ou au moins des ensembles significatifs, de préférence sous forme numérisée, sinon sous forme de descriptions bibliographiques
  • indexer les notices en plein texte (donc s’affranchir de la syntaxe pour la présentation des descripteurs) et s’appuyer sur des thésaurus modélisés pour le Web sous forme d’ontologies avec des relations
  • et enfin, laisser l’interprétation aux chercheurs eux-mêmes en leur donnant la possibilité de rattacher leur propre analyse (subjective) de l’image à celle (objective) que fournit la bibliothèque.

Tout ceci nous permet également de contourner le problème de la masse, qui interdit le plus souvent un catalogage détaillé à la pièce. L’enjeu est de trouver un équilibre entre classification, indexation et participation… et de numériser, bien sûr.

Merci à Ten Thousand Years Blog.

Les aventures de Pierre Cruche sur le Web

L’autre jour, j’étais fort occupée à essayer d’orthographier correctement le nom d’un graveur : Pierre Eskrich, dit "Vase" ou "Cruche" (pas croyable un nom pareil quand même !). Un important graveur lyonnais du 16e siècle, qui a (aurait ?) illustré notamment ça (voir aussi tout plein d’autres resssources ), ça (encore que… pas sûr), ou encore ça.

C’est alors que j’ai découvert le Dictionnaire historique de la Suisse, dans lequel on peut apprendre plein de choses sur l’histoire de la Suisse, gratuitement et en ligne.

Je suis aussi tombée sur ce site : Typographie et civilisation dans lequel on trouve plein de textes sur l’histoire du livre et de la typographie, gratuitement et en ligne.

Et puis j’ai trouvé cette bibliographie très complète sur Bernard Salomon (un collègue de Cruche/Vase).

Je me suis donc promis d’arrêter de faire de la schizophrénie, et d’essayer de pratiquer un peu dans mes recherches ce que je défends habituellement avec tant de verve dans mon travail. J’espère que ça ne perturbera pas trop mes lecteurs bibliothéconomes ;-) allez ça fera un peu de changement.