Wiki-bibliothèque numérique

On parle beaucoup en ce moment de wikipedia, l’encyclopédie libre, et de wikinews, le site d’actualité libre. Validation de l’information et tout ça, je ne relance pas le débat.

Par contre, avant de lire ce billet de S. Bailly, je n’avais jamais entendu personne s’extasier sur Wikisource : une bibliothèque numérique libre.

Le projet : un site wiki pour permettre à n’importe qui de mettre en ligne des textes libres de droit. On y trouve de tout, de la littérature aux sciences en passant par, devinez quoi… les sources historiques. C’est vrai, quoi, si chacun mettait ses transcriptions d’actes du 17e siècle en accès libre sur un wiki, il y aurait moins de travail pour les paléographes. Mais si vous voulez mon avis, le problème de la validation reste plus que jamais entier.

Pour les enfants

Spécialement dédicacé aux petits parisiens qui, même quand le soleil (quoique froid) illumine leur lieu de vacances, préfèrent rester collés à leur écran, voici quelques liens pour préparer Noel en petits clics.

  • Sur petit web, des coloriages, des trucs à imprimer, et la recette du Stolen (miam !)
  • L’atelier du père Noel avec des jeux en flash à découvrir, mais aussi un calendrier de l’avent, et plein d’autres choses…
  • Sur Poulet frites aussi des jeux en flash, même s’ils n’ont rien à voir avec Noel, avec l’inénarrable "tapez sur les nains" (je n’ai rien contre les nains mais c’est très drôle)
  • Et bien sûr, le meilleur parmi le meilleur, c’est nos amis Boowa et Kwala (pour faire les jeux gratuits en ligne, cliquer sur "enfants" puis "jouez en ligne dans la fenêtre sécurisée").

Merci à Mimi !

J’en profite pour saluer au passage le nouveau blog d’Hubert : laCatapulte, dédié à une sélection de livres jeunesse. Une excellente initiative ; dans le genre, l’autre jour, je me disais que ce serait bien de faire un blog pour les enfants, avec tous les jours des liens intéressants à cliquer. Mais j’ai pas le temps (Hubert, dis-nous comment tu fais !!!)

Ethique de blogs

J’ai suivi cette semaine une série de post faits par nos amis les bibliothécaires américains sur la question de l’éthique du blogueur en général, du blogueur bibliothécaire en particulier.

Tout commence chez Karen Schneider qui explique la différence d’exigence d’éthique entre un blogueur et un journaliste.

Blog Ethics Analysis 2004 est un blog "de recherche" entièrement consacré à ce sujet. Je n’ai pas encore eu le temps d’y jeter un oeil.

Chez Library Stuff, on se pose la question de savoir s’il faut dire à son employeur qu’on blogue. Lui il pense qu’on a le choix, mais que quand on aborde des sujets professionnels, ça vaut quand même mieux.

Enfin côté français, un article intitulé Peut-on tout dire sur son blog ? qui éclaircit notamment la question des rapports avec l’entreprise et l’employeur pour le blogueur.

Pour ma part, je pense qu’il est sain d’avoir quelques règles éthiques simples, du type citer ses sources, vérifier ses informations, ne pas effacer ses billets, n’agresser personne, etc. Comme dirait Karen-Schneider,

…librarians, in particular, need to be very cautious when they blog. This is a meta-ethical issue: when you blog as a librarian, even as a librarian "just goofin’ around," you are representing what people think about librarians. Yes, that weight IS on your shoulders…

Quant à moi, mon éthique personnelle m’impose de vous annoncer que je pars en vacances, et qu’une période d’activité réduite, voire nulle, de 15 jours est à prévoir sur le Figoblog.

Réflexions sur Google et la numérisation

Bon, je ne reviendrai pas sur cette annonce qu’on a vu mille fois depuis hier : Google a lancé un projet en partenariat avec des bibliothèques américaines, notamment Harvard et Stanford, pour numériser leurs livres.

Je voudrais juste soulever quelques réflexions et questions, glanées de ça de là sur le Web et ailleurs, concernant cet étonnant projet.

La question des droits d’auteur. Les gens des métiers du livre, en entandant cette annonce, s’inquiètent aussitôt du respect de leurs droits quant à la diffusion de ces livres sur le Web. Pas d’inquiétude : Google se contente de les indexer et de les chercher, mais on ne pourra en voir que de petites portions, voire rien du tout. En ce qui me concerne, mon inquiétude est contraire. Google est un acteur commercial et il se protège de la complexité des droits d’auteurs par une politique restrictive, soit. Mais ces fonds appartiennent à des bibliothèques ; ils sont publics ; elles auraient pu choisir de les mettre en libre accès sur le Web. La délégation de la numérisation change le modèle naturel de communication sur le Web des bibliothèques, et ça m’inquiète.

La délégation. Justement, à propos de la délégation, Hubert a raison de se demander quelles seront les modalités de cette délégation. Qu’une bibliothèque accepte lorsqu’on lui offre sur un plateau l’utopie de la reproduction absolue, je peux le comprendre. Mais il faudrait encore qu’elle ne se retrouve pas ensuite, comme c’est parfois le cas aujourd’hui avec les microfilms, obligée de payer pour disposer de ses propres collections.

Le côté obscur de la force. Ce côté obscur, ce n’est pas seulement la situation de monopole, mais aussi le manque de transparence. Le Web est un espace de chaos et la méthode de Google est sans doute la meilleure pour l’appréhender. Mais indexer pêle-mêle en plein texte des millions de livres, c’est vouloir appliquer le chaos à un matériau par nature structuré. C’est aussi nier les "épaules des géants" revendiquées par GoogleScholar, et le travail fait par les bibliothèques numériques pour essayer de donner à leurs lecteurs des contenus plus structurés, plus accessibles, plus fonctionnels. La transparence, c’est aussi garantir au lecteur l’origine de ce qu’il consulte, lui offrir la traçabilité, le contexte, et la fidélité à l’original qui n’est possible qu’avec le mode image. Numériser, ce n’est pas éditer : numériser impose de respecter l’histoire du matériau, parce qu’elle fait partie de sa compréhension de manière intrinsèque. Je suis curieuse de savoir ce que Google répondra à cela.

Le chaos et la science. Je ne vois pas comment les chercheurs pourront se passer de cette transparence et de cette mise en contexte. Je ne vois pas non plus comment la méthode du chaos peut entrer en adéquation avec un monde scientifique de plus en plus spécialisé. Quand la sérendipité augmente, la précision diminue. Et puis, finalement, la recherche plein-texte sans la consultation, c’est comme de donner les clefs des magasins à un lecteur, puis lui interdire d’allumer la lumière.

Le débat est ouvert.

Les métadonnées de l’espace

Le CNES a mis en ligne les interventions d’un atelier qui a eu lieu à Toulouse le mois dernier sur le thème des métadonnées. Au programme : la confrontation d’acteurs issus de mondes différents et qui se posent les mêmes questions.

C’est vraiment intéressant de voir comment tous les gens qui gèrent des données, et donc des métadonnées, se trouvent confrontés aux mêmes problématiques : l’intéropérabilité, la normalisation, la modélisation, les interfaces d’accès, l’adéquation de la description aux besoins des utilisateurs… On constate aussi que tout le monde a recours aux mêmes technologies et aux mêmes architectures pour gérer ses métadonnées au sein d’un système, le tout reposant sur des modèles comme l’OAIS.

Parmi les interventions pour la plupart très orientées sciences dures et en particulier sciences de la terre au sens large, on trouve quand même un papier sur les archives numériques par un archiviste de la Direction des Archives de France, et un autre sur les métadonnées en bibliothèque et sur METS, par votre serviteuse ;-)

Un peu d’histoire

Que ferait-on aujourd’hui sans le Web, on se le demande. Ca fait bizarre de se dire qu’en si peu de temps, il a pris une telle importance dans notre vie aussi bien personnelle que professionnelle.

Et pourtant, il y avait bien un univers "en ligne" avant le Web et même avant l’Internet, et les bibliothécaires en faisaient partie. On retrouve dans Searcher une série de témoignages à travers 8 articles intitulés : Online before the Internet. Ce qui nous rappelle un temps où "être en ligne", c’était interroger Medline avec Dialog (j’ai encore appris ça à l’enssib ce qui prouve peut-être que je ne suis pas aussi jeune que j’en ai l’air ;-) et même avant Dialog (c’est loin).

Et puis naquit le Web, et il fallut bien trouver un moyen de savoir ce qu’il y avait dedans. C’est ce que nous relate cette petite histoire des moteurs de recherche, depuis l’avant-robots en 1990 jusqu’à la naissance de Google en 1998. Eh oui, c’était hier…

Merci à ResourceShelf et à Totem.

La photo : toujours Tolède, dans le cloître du monastère San Juan de los Reyes.

Figues de Noel

Il paraît qu’on trouve des figues sur les étals des primeurs jusqu’à début décembre, ce qui est tout à fait exact ; j’en ai encore vu hier, mais il est vrai tout de même qu’elles faisaient plus pitié qu’envie.

Néanmoins, la figue est essentielle à cette époque de l’année puisqu’elle figure en bonne place dans les 13 desserts du Noel provençal. Il s’agit bien sûr de figues sèches, qui sont excellentes à cette époque de l’année car elles sont juste sèches de l’automne, et encore parfaitement fondantes et juteuses. Les 13 desserts symbolisent les 12 apôtres (c’est comme les mousquetaires, on rajoute Jésus et ça fait 13). Les figues sèches sont l’un des "quatre mendiants" des 13 desserts, avec les autres fruits secs, noix, noisettes et raisins. On les appelle mendiants car leur couleur rappelle celle des habits des quatre ordres mendiants (les figues symbolisent donc les Franciscains).

Pour être sûr d’être au top de la cuisine de Noel, il faut aussi préparer des bredeles ou sablés traditionnels alsaciens, pour lesquels il n’y a pas seulement une recette mais tout plein de recettes, autant que de sortes de biscuits qui se présentent en boîte bigarrée et délicieuse, avec toujours les mêmes qui restent à la fin, sinon c’est pas drôle.

Et pour accompagner les bredeles, l’indispensable vin chaud pour lequel je fais confiance à Scally qui est aussi de là-bas.

La photo n’a rien à voir, c’est le grand figuier qui est devant la gare de Tolède.

La quête de l’image (suite)

J’ai attendu cela patiemment. La suite de l’article "Looking for good art" , de David Mattison, dont je parlais dans un ancien billet, a été mise en ligne.

Ces trois articles en libre accès constituent un must-read de la recherche d’images sur le Web.

Le premier explore les bases de données et les outils de références, publics ou privés.

Le second aborde les moteurs de recherche d’images par reconnaissance des formes et autres. Je ne résiste pas à citer, en la déformant soigneusement par suppression de son contexte, cette phrase de la conclusion :

"…accurate, valid, standardized, and detailed metadata is the key to the precision recall of online art images."

Le troisième fait le tour par pays des ressources de collections d’images nationales en ligne. Les bibliothèques françaises ne sont pas oubliées. A noter, un encart sur l’utilisation juridique de ces images, et des références bibliographiques.

Je note quand même des recoupements dans les liens proposés dans ces trois articles, chacun représentant plutôt une approche différente qu’une liste de ressources étanche par rapport aux autres. En gros, les trois approches sont

  • les types de ressources,
  • les types de recherche / d’indexation
  • les grandes collections publiques, par pays.

Les jolis identifiants opaques

Amis bibliogeeks, j’ai encore des outils magiques dans ma besace.

Aujourd’hui, je vais vous parler des Noids – rien à voir avec Star Wars, malgré les apparences : ce sont les Nice Opaque IDentifiers ou jolis identifiants opaques (hum). Petite définition : les identifiants opaques sont des codes alphanumériques qui permettent de faire référence de manière pérenne à un objet (numérique ou non) et qui ne portent pas de signification. Par exemple un numéro en séquence. Ou un PURL ou un DOI, un Handle, un ARK, etc.

Il existe un logiciel open source qui permet de générer et de gérer des Noids et qui s’apelle Noid (re-hum).

Noid est vraiment en bonne place dans le rang des outils magiques, et qui plus est, bien faits et bien pensés. On peut lui demander de générer n’importe quelle série d’identifiants, en paramétrant un préfixe qui reste toujours le même, et un masque numérique ou alphanumérique, qui a un nombre de caractères limité ou non, séquentiel ou aléatoire. Noid relie ensuite ces identifiants aux objets numériques (ou pas, d’ailleurs) dans une base de données, et le tour est joué ! Vous avez un gestionnaire d’identifiants qui sait aussi les retrouver, les déplacer, les remplacer, les réutiliser, etc.

Avec un outil pareil, la seule chose qui reste à faire, c’est bien réfléchir à ce que l’on attend de ses identifiants. Donc, bien définir les fonctionnalités. Comme toujours, au fonds.

Noid nous vient directement de la California Digital Library via John Kunze.

Les ressources :

Merci à Younes et à Julien.

Outils d’extraction de (méta)données

Aujourd’hui, je me suis beaucoup amusée avec deux de ces merveilleux outils qui permettent de rentrer un ou plusieurs fichiers, et de sortir complètement autre chose (en général, du XML, sinon où est l’intérêt…) Je trouve cela particulièrement réjouissant.

MARCXML converter est comme son nom l’indique un convertisseur de fichiers MARC (en sortie ISO 2709) en xml suivant le schéma MARCXML. Evidemment, il faut des notices MARC21 en entrée, sinon ça marche pas.

Dans un autre genre, la National Library of New Zealand propose en téléchargement son Metadata extraction Tool en version stable. Mais à quoi cela sert-il, me direz-vous ? Cela sert à extraire les données contenues dans les en-têtes de fichiers TIFF, JPEG, PDF, BMP, Open Office, Word, et bien d’autres. Mais à quoi cela sert-il, me direz-vous encore ? Parmi ces informations, on trouve un certain nombre de données sur le fichier (son auteur, sa date de création, etc) ainsi que des données techniques nécessaires pour la conservation à long terme (le format, la taille, etc) – l’objectif de la NLZ. Grâce à l’outil d’extraction, on peut obtenir des sorties en XML de ces données, pour un fichier ou pour plusieurs à la fois (ce qu’on appelle les objets complexes). Apparemment il est assez simple de changer le schéma XML de sortie pour mettre celui qui nous fait plaisir, ce qui fait de cet outil une vraie perle.

Tous deux fonctionnent avec une machine Java récente et doivent être installés (mais ils sont faciles à utiliser et à installer sous Windows).

Dans le genre outil magique, il y a aussi le Servoo qu’utilise Lodel pour convertir les fichiers Word ou Open Office en XHTML, et en plus, lui, il fait ça en ligne à distance ! Mais à force que tout le monde en parle, ça commence à se savoir.