Publications en français sur la préservation numérique

Le projet européen DPE (Digital preservation Europe) annonce la traduction en français de plusieurs de ses publications (« briefing papers » – comment traduire ça ?).

Dans la liste on trouve :
– La conservation numérique et les archives en accès ouvert. Un accès permanent aux fonds numériques en accès ouvert
– L’évaluation des documents scientifiques : Une gageure
– Préservation du contenu de l’Audio visuel numérique
– LOCKSS: Rétablir les bibliothécaires en tant que dépositaires du contenu des revue
– Les sources ouvertes dans la préservation numérique

J’espère que leur expert traducteur de français ne va pas s’arrêter en si bon chemin, et va s’attaquer aussi à « Automating semantic metadata extraction », « A data model for preservation metadata », « Persistent Identifiers for Cultural Heritage », « INTEROPERABILITY. A key concept for large scale, persistent digital libraries », et le petit dernier né, publié le 22 septembre : « Identifier interoperability ».

Allez Jean-Pierre ! On est tous avec toi !

Le catalogage comme flux

Probablement les tendances actuelles (je parle de l’évolution technologique mais aussi de la crise généralisée et des restrictions qui touchent le secteur public) vont nous pousser à repenser complètement notre façon de produire les données qui alimentent nos catalogues. Probablement, ces données vont faire ce qu’elles font habituellement sur le Web : elles vont devenir des flux.

Bien sûr, l’un de ces flux réside dans une importance croissante de la mutualisation des données. Aujourd’hui on parle de récupération de notices ( et Silvère nous a bien prouvé qu’on pouvait cataloguer un livre en 1mn 43 secondes, merci au passage pour la démonstration !) mais qu’est-ce qui nous empêche de penser que demain (ou après-demain) on n’aura même plus besoin de récupérer les données, elles se contenteront d’exister, de manière distante, et on pourra construire des systèmes qui pointeront sur elles de la manière qui nous agrée.

Lorcan Dempsey a présenté récemment quelques idées intéressantes sur la question dans un billet où il fait référence à une citation d’Héraclite sur les rivières.

IPRES comme si vous y étiez

Cette année, la principale conférence internationale sur la préservation numérique, IPRES, avait lieu à Londres : elle vient de se terminer. Evidemment, je n’y suis pas allée, trop occupée à pouponner ;-) mais aussi à diverses autres activités.

Heureusement, il y a toujours des gens sympa pour bloguer les conférences ; dans ce cas précis, c’est Chris Rusbridge du Digital Curation Centre qui a blogué IPRES sur le blog du DCC.

Je n’ai pas encore tout lu mais il y a sans doute des choses intéressantes à y trouver comme ce projet InSPECT qui travaille sur les « significant properties » : les caractéristiques essentielles d’un objet qui sont nécessaires pour garantir son authenticité.

Le temps n’est rien

Le temps n’est rien est le titre d’un livre que j’ai lu récemment. Non pas que je vous en recommande particulièrement la lecture, à moins que vous ne soyez de fervents adeptes des drames sentimentaux assez déprimants. Mais bon, ce bouquin raconte l’histoire d’un type qui se trouve être bibliothécaire à la Newberry Library de Chicago. Je ne résiste pas à l’envie de vous citer la phrase du livre, lancée par une amie lesbienne à la future épouse du bibliothécaire en question :

Faut que t’en profite un peu avant de te caser avec ton Rat de Bibliothèque. (…) T’auras à peine eu le temps de dire ouf que tu vas te retrouver avec une ribambelle de bibliothécaires modèles réduits qui chieront la classification décimale de Dewey dans leurs Pampers.

Bon c’est pas tous les jours qu’on lit ce genre de référence à la Dewey dans un roman quelconque. Enfin je vous rassure, j’ai bien inspecté le contenu des miennes, de Pampers, et point d’indices ni de cotes (d’ailleurs on s’attendrait plutôt à y trouver des triples ou des métadonnées de préservation, mais non plus !)

Méditation sur les métadonnées

Un peu tout le monde a remarqué le diaporama ultime d’Andy Powell sur les métadonnées.

Lorcan Dempsey a remarqué la phrase qui tue dans ce diaporama :

« Metadata tends to get more complicated the longer you think about it. »

Plus on s’intéresse aux métadonnées, plus ça se complique ! J’avoue que mon expérience tend à confirmer cette maxime. Dans le monde des métadonnées, les solutions qui ont l’air brillantes de simplicité, évidentes et formidables, tendent à se compliquer nettement quand on essaye de les mettre en oeuvre. Le monde des métadonnées est tellement plein de données locales, de strates historiques de catalogage, de particularités bibliographiques, de types de documents spécifiques… Sur ce, je vous laisse, faut que j’aille FRBRiser mon catalogue avant de le passer en RDF ;-)

Classifications

OCLC a lancé un nouveau service expérimental : Classify. Il permet, à partir d’un identifiant type ISBN ou autre, de savoir comment est statistiquement le plus souvent classée une oeuvre (je parle bien d’une oeuvre, car il y a une étape de FRBRisation). On obtient les résultats en Dewey, en classification de la Library of Congress, et parfois d’autres (comme la classification de la National Library of Medecine).

Je suppose que ces données sont basées sur Worldcat : donc peu de chance de voir surgir un ouvrage classé en OSC… En quoi ??? En Open Shelves Classification, une nouvelle classification collaborative proposée par Library Thing pour … remplacer la Dewey, rien que cela ! (voir Bibliobsession)

L’autre concurrente de la Dewey, la CDU, n’a pas seulement un riche passé, elle a aussi un avenir, l’ensemble étant récapitulé dans cet article.

Et puisque je suis dans les classifications, j’en profite pour signaler deux communications de l’IFLA 2008 qui évoquent la question des alignements de vocabulaires : celle-ci qui porte sur l’utilisation des technologies du Web sémantique pour rapprocher des vocabulaires de descriptions d’enluminures médiévales, et celle-là présente une expérience allemande d’alignement automatique d’une variété de vocabulaires et de thésaurus en sciences sociales.

Merci principalement à catalogablog.

LC+FlickR : bilan d’une expérience 2.0

Vous vous souvenez, il y a quelques mois, la Library of Congress ouvrait un site sur Flickr pour permettre aux usagers de tagguer et commenter un fonds de 3000 photographies.

Quelques mois plus tard, l’équipe responsable du projet a (un peu discrètement) communiqué sur les résultats de l’expérience. On peut lire ce billet sur le blog Hanging Together de RLG, et sur Digitization 101 deux comptes-rendus de la conférence CIL 2008 : et .

Quelques idées intéressantes qu’on peut en retenir :
– le fait de positionner la contribution sur Flickr plutôt que sur le site de la bibliothèque permet de s’abstraire des questions déontologiques (inexactitudes, qualité des contributions…)
– ensuite, la LC a mis en place une démarche permettant de réinsérer dans leur propre catalogue les contributions les plus intéressantes : une activité chronophage…
– il ne faut pas non plus noyer les utilisateurs dans la masse : pour ne pas décourager les contributions, la LC n’ajoutait que 50 images par semaine, atteignant ainsi le taux de contribution optimal pour l’ensemble. Ceci dit à ce rythme là il faudrait 20 ans pour tout mettre sur Flickr…

Quelques chiffres : en 3 mois
– 100 notices du catalogue ont été enrichies à partir d’informations collectées sur Flickr (c’est pas beaucoup, non ?)
– la LC s’est fait 11000 « amis » dans Flickr
– 55000 tags ont été ajoutés (10 000 tags différents).

Visiblement, l’expérience a vraiment réussi à susciter une communauté, et pour cela le fait d’être sur Flickr n’a sans doute pas été indifférent (on pourrait se demander si il y aurait eu autant d' »amis » sur un site hébergé par la LC). La communauté a produit un résultat utile, certaines descriptions ou tags relevant de l’analyse voire de l’investigation, et d’autres de la description plus fine que ce qui était fourni par la LC au départ : dans les deux cas, à un niveau de détail qui n’aurait pas pu être atteint sans le recours à la communauté d’utilisateurs.

Nous ne numériserons plus ensemble…

Vendredi, Microsoft a annoncé sa décision d’arrêter ses programmes de numérisation et la fermeture des plateformes Live Search Books et Live Search Academic.

Cette décision a été pas mal commentée : même en français ici.

On peut s’inquiéter pour ce qu’il va advenir d’un programme comme Open Content Alliance, qui s’appuyait sur les financements de Microsoft entre autres : mais Internet Archive a de la ressource, je pense qu’ils vont s’en sortir (d’ailleurs ils ont l’air assez confiants si on lit ça). Finalement cette décision est présentée, y compris par Microsoft eux-mêmes, comme un potentiel catalyseur pour encourager le financement de la numérisation par les bibliothèques, les éditeurs, les pouvoirs publics.

Personnellement je m’interroge davantage sur le positionnement d’une bibliothèque comme la British Library, qui s’était lancée dans un partenariat resserré avec Microsoft et comptait sur Live Books Search pour lui servir d’interface de consultation. Même s’ils récupèrent du même coup leurs fichiers et leurs droits, c’est quand même un gros ajustement par rapport à leur stratégie de départ que de devoir construire leur propre bibliothèque numérique.
Pour l’instant personne n’a évoqué la réaction de la British Library, à ma connaissance.

SIGB et métadonnées

Le JISC a publié récemment deux études intéressantes :

Library Management Systems Study (mars 2008), un état de l’art comparatif des principaux systèmes de SIGB utilisés dans les bibliothèques anglo-saxonnes et leurs perspectives d’évolution ;

Metadata for digital libraries: state of the art and future directions (avril 2008), un rapport de veille technologique dans lequel il est question en particulier de métadonnées de préservation (METS, PREMIS et tous leurs amis).

Je les ai justes parcourues mais ce que je peux en dire et qui m’a interpelée, c’est qu’aujourd’hui, en 2008, au JISC on pense que l’avenir des SIGB est dans le Web 2.0, les Web services et les mash-up, et que pour faire de belles métadonnées il faut du XML.
Je ne dis pas que c’est faux, hein, je suis moi-même assez attachée à mes annotations collaboratives et autres tags, je prône la liberté des données et il n’y a rien au monde qui me rassure plus que de savoir que mes métadonnées de préservation sont bien au chaud dans de beaux fichiers METS.
Toutefois, tout cela ne manquerait-il pas un peu de vision ? de modularité ? de technologies innovantes ? de standards décoiffants ? Un peu de Semantic Web quoi… ou c’est moi qui suis à côté de la plaque…

Des URI sympas pour le Web sémantique

En date du 1er avril, le W3C annonce avoir mis à jour le document Cool URIs for the Semantic Web, passé du statut de « draft » à celui de « interest group note » (ceux qui y comprennent quelque chose à la normalisation apprécieront cette évolution ;-)

C’est un document qui explique comment attribuer des URI à des ressources abstraites (c’est à dire, des ressources qui ne correspondent pas à une page Web). En particulier il décrit comment gérer la négociation de contenu qui va permettre de renvoyer tantôt une page Web, tantôt la référence d’une ressource abstraite suivant l’URI qu’on demande.

Quand on manipule des URI non actionnables, qui ne pointent pas forcément vers quelque chose (par exemple les info URI), on n’a pas ce genre de problème. Mais c’est quand même un document tout à fait essentiel à avoir sous la main quand on conçoit des URI pour le Web sémantique.