Bonnes fêtes 2.0

Voici un nouveau site d’information pour les professionnels des bibliothèques, qui vient de sortir : Library Web. C’est tout à fait épatant, vraiment, ça faisait longtemps que j’avais pas vu un tel site. C’est "so 1.0" ! Un site d’actu sans même un petit fil RSS ! Et ce look !!!

Allez, pour vous remettre de vos émotions, vous pouvez consulter (oui, consulter, c’est le mot) la carte de voeux 2.0 d’OCLC. Toute en tags ;-)

Et pis moi ben je vous retrouve l’année prochaine !

Ceci est un blog sérieux

A tous les gens qui seraient susceptibles de débarquer ici pour la première fois, suite à un événement impromptu survenu dans ma vraie vie, je voudrais dire que ce blog a beau être rose fluo (j’ai essayé de changer, mais franchement vous seriez déçus) c’est quand même un blog vachement sérieux.

Il y est question de sujets aussi graves que les rapports de la commission européenne sur les droits d’auteurs qui impactent la numérisation, la construction de la bibliothèque numérique du monde, et la préservation des données numériques.

Y sont évoquées des tas de technologies compliquées comme le passage de MARC en RDF, l’impact de l’OAI sur l’interopérabilité, et les services de terminologie.

Ce blog se pose des tas de questions existentielles pour l’avenir de la bibliothéconomie numérique, telles que la modélisation conceptuelle des accès, les entrepôts du Web 2.0, et l’univers des données scientifiques du futur.

Enfin ce blog est truffé de références vers des sites originaux et pertinents, comme la Chronologie d’histoire de l’art du Metropolitan Museum of Art et le moteur BabyGo destiné aux enfants.

En plus, ce blog est vraiment sérieux car il cite ses sources : Resourceshelf et Catalogablog souvent, mais parfois aussi Open Access News et des collègues français comme Affordance. Alors, hein, si c’est pas sérieux tout ça !!! Le seul problème c’est qu’en ce moment je manque de temps pour bloguer aussi sérieusement que je le voudrais… Enfin, il reste toujours les figues ;-)

Web sémantique appliqué aux collections numériques

En ce moment, je fais un peu de veille sur les technologies du Web sémantique appliquées aux bibliothèques (en général) numériques (en particulier). Je vous propose de m’accompagner dans cette découverte, à travers quelques exemples commentés.

Le premier que j’ai choisi est cette démo qui propose de construire une interface à facettes dans des images à partir de données en RDF. On peut consulter dans ce prototype trois collections d’images, indexées avec 4 vocabulaires différents.

Les "plus" : c’est le côté facettes que j’aime toujours autant, mais aussi la possibilité de rebondir de concept en concept à l’infini. Le système est tolérant aux erreurs ("fuzzy search"). Les données permettent de générer un accès chronologique aux objets (périodes, personnes, oeuvres) en relation avec une requête. D’ailleurs c’est très performant en termes de recherche temporelle (on peut chercher des notions comme avant, après…) On peut exprimer des notions assez complexes (comme la relation plus ou moins éloignée entre deux choses). En plus, les images sont très belles ce qui ne gâche rien.

Les "moins" : l’affichage de certaines données est parfois assez cryptique pour des gens qui ne manipulent pas les technos du web sémantique… notamment tout ce qui permet d’accéder aux relations. Heureusement la FAQ donne quelques explications entre deux détails techniques !

En fait c’est un des problème avec le web sémantique : si on n’explique pas, si on ne le montre pas exprès, le fait que ce soit fabriqué avec du web sémantique ne se voit pas. Ces technologies font partie des principes d’architecture propre, interopérable et normalisée, qui sont en général cachés aux yeux des utilisateurs. Ce n’est pas de la carosserie, ça n’en jette pas, c’est pas du web 2.0 quoi… Mais le bénéfice d’avoir une architecture propre et performante, sur le long terme, est inestimable.

Vous avez dit « virtuel » ?

Non, en fait, j’ai dit numérique et pas virtuel.

La preuve : pour stocker des documents numériques, il faut de la place. Beaucoup de place. Par exemple un container.

A part ça, pour stocker des documents numériques, il faut de la puissance, beaucoup de puissance. Par exemple celle d’Amazon.

Du coup, pour stocker des documents numériques correctement et sur le long terme, il va falloir du temps, beaucoup de temps. Au moins 100 ans de réflexion.

Merci à Got et Faut le savoir, à Thierry et à 10KY blog.

C’est un peu bêta

C’est la mode dans les bibliothèques de sortir des trucs en version bêta. La preuve par l’exemple…

La Library of Congress a sorti un beta search assez intéressant. Une recherche simple qui fédère toutes les ressources de la bibliothèque (catalogue, bibliothèque numérique, site Web) : cela fait carrément penser à la National Library of Australia qui propose le même service, pas beta, sur sa page d’accueil depuis au moins 2 ans.

La Bibliothèque numérique d’Oxford a sorti un site beta construit avec Greenstone. Je trouve cela dommage qu’on soit obligé d’entrer par collection, à l’anglo-saxonne : ça manque un peu de recherche globale.

Merci à Peter Scott et à ResourceShelf.

L’historien, le boucher et la bibliothèque

« Bonjour, je vais prendre deux kilos de sources s’il vous plaît ! »

Ainsi l’historien de demain s’adressera-t-il à son bibliothécaire, comme si c’était son boucher, pour commander de la source qui aura été préparée spécialement pour lui dans des projets comme celui-ci ou celui-là.

Temple de Zeus

N’est-ce pas la marque d’un orgueil démesuré, que de croire que nous pouvons inventer l’histoire de demain en "créant de la source" ? Ou sommes-nous tellement désespérés par les problèmes de préservation des documents numériques que nous pensons que seuls les documents préparés exprès à cette fin arriveront jusqu’aux générations futures ?

Notre travail de passeurs consiste bien à préserver de la source pour les historiens de demain. Mais le Patrimoine, ce n’est pas une chose qu’on peut constituer de manière arbitraire ou hasardeuse. Seule la collecte ouverte, patiente, et représentative de ce tout qu’est le Web d’aujourd’hui, pourra dans le meilleur des cas servir de source aux historiens de demain.

Quand aux projets History Matters ou Time Capsule, tout ce qu’ils apprendront à ces historiens du futur, c’est que nous traversons en ce début de 21e siècle une époque obsédée par sa propre mémoire, et égarée face au passage du Temps et aux changements qu’il apporte.

Merci à Homo Numericus.

Folksobibliographie

Je les range là pour mémoire : quelques articles sur les folksonomies, les communautés et autres problèmes liés aux vrais gens dans le Web 2.0.

Ouf, ça fait un peu de vide dans mon aggrégateur ;-)

Le bon grain de l’ivraie

Chiche que j’aborde un sujet dont tout le monde parle : les folksonomies.

Avec les folksonomies en général, et le tagging en particulier, ce qui fait le plus peur aux bibliothécaires, c’est le problème de la qualité. Olivier Le Deuff dans son article décrit bien les problèmes que l’on rencontre en confiant à des utilisateurs inexpérimentés le soin d’indexer des documents.

Je vous suggère de voir comment Google aborde le problème. Un double problème, en fait :

  • on ne sait pas indexer des images et on n’a pas les ressources pour le faire,
  • les utilisateurs peuvent le faire mais ils sont stupides.

Comment contrôler le travail d’utilisateurs incompétents ? Il suffit de les pousser sur la pente glissante qui les entraîne vers le bas.

Pour preuve, ce nouveau service : Google image labeler.

Pour motiver sa communauté d’utilisateurs, Google présente le taguing sous forme de jeu : vous avez un partenaire tiré au hasard et un peu moins d’1 minute pour taguer un maximum d’images. Pour qu’une image soit taguée, il faut que vous et votre partenaire inconnu saisissiez le même tag. A chaque image taguée, vous gagnez 100 points.

Qu’est-ce qu’on gagne ? Rien, mais la rapidité et l’émulation rendent le jeu prenant et il est difficile de s’arrêter. Du coup, les utilisateurs vont taguer plein d’images, et avec des tags supposés plus pertinents puisque deux utilisateurs les ont choisis en même temps.

C’est très malin, mais à mon avis pas très efficace. En effet, on est plus tenté de « gagner » que d’être utile et efficace, donc au lieu de réfléchir à ce qui décrirait le mieux l’image, on essaye d’imaginer ce que le partenaire va trouver. Au final on aura plein d’images taggées « red », « people », « man », « map » ou « building ». Je ne sais pas si ça aidera beaucoup, mais Google nous le dira.

A part ça, chez Panlibus ils pensent aussi que Google abuse d’utiliser un nouveau terme, "label", alors que le monde entier dit "tag". Franchement.

L’Europe numérique (suite !)

Bon alors voilà, l’Europe numérique continue, avec la fameuse recommandation de la commission européenne aux états, qui consiste en deux injonctions majeures (je résume) :

  • numérisez et mettez en ligne !
  • conservez ce que vous avez numérisé !

C’est vrai, quoi, il fallait y penser : conserver des documents numériques ! Puisque manifestement il fallait que quelqu’un le dise pour que ce soit pris en compte, maintenant c’est fait.

Je signale aussi, via Prosper, ce numéro de revue consacré à la bibliothèque numérique européenne. J’avoue ne l’avoir pas lu.