Blog en pause

A ceux qui suivent ce blog depuis quelques temps, il n’aura pas échappé que je viens d’accueillir dans ma vie un nouveau petit amateur de figues. A l’heure qu’il est, il a 10 jours et pèse un peu plus de 3,5 kg. Il fait la fierté de son papa, le bonheur de sa grande soeur, et la joie de sa grand-mère… et non, lui il ne blogue pas encore ;-)

Maintenant, essayez de vous concentrer sur la bibliothéconomie quand vous dormez 4h par nuit (en 4 fois), que vous avez en permanence une main prise par le lait, les couches ou les stratégies d’endormissement par surprise, et que toutes les 2 heures retentissent de grands cris affamés…

Bref, ce blog va rester en jachère encore quelques temps. Patience…

Ps : je remercie tous les biblioblogueurs qui m’ont envoyé leurs félicitations par les différents canaux de ma vie virtuelle, de Gmail à Facebook en passant par Twitter… Excusez-moi de ne pas vous répondre à chacun, le coeur y est et je reste silencieusement attentive aux péripéties de la biblioblogosphère !

LC+FlickR : bilan d’une expérience 2.0

Vous vous souvenez, il y a quelques mois, la Library of Congress ouvrait un site sur Flickr pour permettre aux usagers de tagguer et commenter un fonds de 3000 photographies.

Quelques mois plus tard, l’équipe responsable du projet a (un peu discrètement) communiqué sur les résultats de l’expérience. On peut lire ce billet sur le blog Hanging Together de RLG, et sur Digitization 101 deux comptes-rendus de la conférence CIL 2008 : et .

Quelques idées intéressantes qu’on peut en retenir :
– le fait de positionner la contribution sur Flickr plutôt que sur le site de la bibliothèque permet de s’abstraire des questions déontologiques (inexactitudes, qualité des contributions…)
– ensuite, la LC a mis en place une démarche permettant de réinsérer dans leur propre catalogue les contributions les plus intéressantes : une activité chronophage…
– il ne faut pas non plus noyer les utilisateurs dans la masse : pour ne pas décourager les contributions, la LC n’ajoutait que 50 images par semaine, atteignant ainsi le taux de contribution optimal pour l’ensemble. Ceci dit à ce rythme là il faudrait 20 ans pour tout mettre sur Flickr…

Quelques chiffres : en 3 mois
– 100 notices du catalogue ont été enrichies à partir d’informations collectées sur Flickr (c’est pas beaucoup, non ?)
– la LC s’est fait 11000 « amis » dans Flickr
– 55000 tags ont été ajoutés (10 000 tags différents).

Visiblement, l’expérience a vraiment réussi à susciter une communauté, et pour cela le fait d’être sur Flickr n’a sans doute pas été indifférent (on pourrait se demander si il y aurait eu autant d' »amis » sur un site hébergé par la LC). La communauté a produit un résultat utile, certaines descriptions ou tags relevant de l’analyse voire de l’investigation, et d’autres de la description plus fine que ce qui était fourni par la LC au départ : dans les deux cas, à un niveau de détail qui n’aurait pas pu être atteint sans le recours à la communauté d’utilisateurs.

Nous ne numériserons plus ensemble…

Vendredi, Microsoft a annoncé sa décision d’arrêter ses programmes de numérisation et la fermeture des plateformes Live Search Books et Live Search Academic.

Cette décision a été pas mal commentée : même en français ici.

On peut s’inquiéter pour ce qu’il va advenir d’un programme comme Open Content Alliance, qui s’appuyait sur les financements de Microsoft entre autres : mais Internet Archive a de la ressource, je pense qu’ils vont s’en sortir (d’ailleurs ils ont l’air assez confiants si on lit ça). Finalement cette décision est présentée, y compris par Microsoft eux-mêmes, comme un potentiel catalyseur pour encourager le financement de la numérisation par les bibliothèques, les éditeurs, les pouvoirs publics.

Personnellement je m’interroge davantage sur le positionnement d’une bibliothèque comme la British Library, qui s’était lancée dans un partenariat resserré avec Microsoft et comptait sur Live Books Search pour lui servir d’interface de consultation. Même s’ils récupèrent du même coup leurs fichiers et leurs droits, c’est quand même un gros ajustement par rapport à leur stratégie de départ que de devoir construire leur propre bibliothèque numérique.
Pour l’instant personne n’a évoqué la réaction de la British Library, à ma connaissance.

SIGB et métadonnées

Le JISC a publié récemment deux études intéressantes :

Library Management Systems Study (mars 2008), un état de l’art comparatif des principaux systèmes de SIGB utilisés dans les bibliothèques anglo-saxonnes et leurs perspectives d’évolution ;

Metadata for digital libraries: state of the art and future directions (avril 2008), un rapport de veille technologique dans lequel il est question en particulier de métadonnées de préservation (METS, PREMIS et tous leurs amis).

Je les ai justes parcourues mais ce que je peux en dire et qui m’a interpelée, c’est qu’aujourd’hui, en 2008, au JISC on pense que l’avenir des SIGB est dans le Web 2.0, les Web services et les mash-up, et que pour faire de belles métadonnées il faut du XML.
Je ne dis pas que c’est faux, hein, je suis moi-même assez attachée à mes annotations collaboratives et autres tags, je prône la liberté des données et il n’y a rien au monde qui me rassure plus que de savoir que mes métadonnées de préservation sont bien au chaud dans de beaux fichiers METS.
Toutefois, tout cela ne manquerait-il pas un peu de vision ? de modularité ? de technologies innovantes ? de standards décoiffants ? Un peu de Semantic Web quoi… ou c’est moi qui suis à côté de la plaque…

Des URI sympas pour le Web sémantique

En date du 1er avril, le W3C annonce avoir mis à jour le document Cool URIs for the Semantic Web, passé du statut de « draft » à celui de « interest group note » (ceux qui y comprennent quelque chose à la normalisation apprécieront cette évolution ;-)

C’est un document qui explique comment attribuer des URI à des ressources abstraites (c’est à dire, des ressources qui ne correspondent pas à une page Web). En particulier il décrit comment gérer la négociation de contenu qui va permettre de renvoyer tantôt une page Web, tantôt la référence d’une ressource abstraite suivant l’URI qu’on demande.

Quand on manipule des URI non actionnables, qui ne pointent pas forcément vers quelque chose (par exemple les info URI), on n’a pas ce genre de problème. Mais c’est quand même un document tout à fait essentiel à avoir sous la main quand on conçoit des URI pour le Web sémantique.

Histoires de numérisation

Dans cet article, un gars de Google raconte les problèmes de gestion de l’information et du document qu’ils ont rencontrés en mettant en place Google Books Search. On y trouvera des réflexions sur l’OCR, l’analyse de documents, l’extraction de métadonnées, le traitement des images, l’affichage et la visualisation des documents ou extraits de documents, le logiciel libre et la R&D.

Dans Wired, on peut consulter un reportage photographique sur la numérisation réalisée par Internet Archive dans le cadre du projet OCA. Noter le côté très artisanal de la chose…

A consulter avec l’autre main : Framework for good digital collections (document du NISO, version 3, décembre 2007) et le probablement déjà cité Preservation in the age of large-scale digitization (Rapport du CLIR, par Oya Rieger de l’université de Cornell).

Sources :
Lorcan Dempsey
disruptive library technology jester

Normes

En vrac, l’actualité de ces derniers mois sur les normes et bonnes pratiques qui intéressent les données bibliographiques.

En janvier a été publiée la version définitive du rapport du « wogrofubico », le groupe de travail sur l’avenir des données bibliographiques, qui rassemblait entre autres la Library of Congress et Google. Il contient de nombreuses recommandations sur l’avenir de la coordination bibliographique, la visibilité des métadonnées, les technologies liées au Web comme les identifiants pérennes, la normalisation autour de RDA et FRBR, et son implémentation, etc.

En janvier aussi, l’IFLA a publié la dernière version des FRBRoo. Cette nouvelle version est compatible avec le CRM-Cidoc et avec les technologies du Web sémantique. Elle fait l’objet d’un appel à commentaires jusqu’au 21 avril.

A la fin de ce prolixe mois de janvier, le W3C a publié SKOS Simple Knowledge Organization System Reference, dernière version de ce modèle d’encodage des thésaurus pour le web sémantique. A lire avec dans l’autre main le SKOS primer sorti en février.

En février, l’IFLA a publié une version révisée des FRBR (pas oo).

En mars, la Library of Congress a présenté LCCN, son système d’identifiants pérennes pour ses notices bibliographiques.

En mars, la convergence entre le catalogage et le Web sémantique se renforce. Voir une initiative personnelle ici, mais surtout cette annonce d’un travail qui commence sur la RDFisation des RDA. Ce travail est piloté par le groupe de travail RDA/DCMI et inclut Alistair Miles (alias Monsieur SKOS).

Une version complète des RDA devrait voir le jour cet été.

Séminaire sur la préservation numérique

Un peu de pub : l’association Aristote et le groupe PIN organise un séminaire le Jeudi 10 avril 2008 à l’Ecole Polytechnique à Palaiseau. Le thème en est : « Pérennisation de l’information numérique : les changements spectaculaires du paysage national et du contexte européen » (programme complet). Ca devrait être assez intéressant pour tous les gens qui s’intéressent à la préservation des documents numériques.

On peut s’inscrire jusqu’au 4 avril. Le séminaire sera aussi retransmis en direct sur le Web (voir mode d’emploi ici).

Du spam dans mon RSS

Ca faisait un moment que j’avais remarqué des dysfonctionnements dans mon bon vieux Bloglines. Par exemple, pour des raisons inexpliquées, certains blogs très intéressants ne reçoivent plus aucune mise à jour dans Bloglines depuis des mois, et j’arrive pas à réparer. Pour d’autres, j’ai été obligée de me désabonner et de me réabonner dans la foulée.

Mais alors ce matin ça dépasse tout :

Tiens tiens, me dis-je, ce cher Olivier serait-il devenu « very dynamic » pendant la nuit ? aurait-il troqué son patronyme habituel pour celui, plus anglo saxon, d’Aaron Stone ? Point du tout. Son fil a RSS a tout bonnement été spammé. Pas le blog lui-même, juste le fil RSS. Sans doute dû à son hébergeur car j’ai repéré une autre victime.

Alors voilà, un mythe de brisé, on croyait qu’on était tranquilles avec le RSS, et en fait non. Où va-t-on, franchement.