IPRES 2009 (1) – La valeur et le Temps

La conférence IPRES 2009, dédiée à la conservation numérique, vient de se terminer. Elle était cette année accueillie par l’Université de Californie – San Francisco et organisée par la California Digital Library.

Je m’épate moi-même quand je vois la complétude avec laquelle j’avais couvert l’événement en 2006, à Cornell… Aujourd’hui, une bonne partie de mon énergie est passée sur Twitter, où la conférence était couverte en direct par plusieurs personnes (tag #ipres09). Pour ceux qui dorment la nuit, vous pouvez aussi consulter le blog de Chris Rusbridge, qui a couvert en temps réel une bonne partie des sessions, à raison d’un billet par présentation.

Pour ma part, je vais me contenter d’une synthèse assez générale.
IPRES est résolument devenu un événement incontournable pour les bibliothécaires qui gèrent des collections numériques. Cette année le thème « moving into the mainstream » laissait supposer une certaine maturité du sujet et des questionnements liés à la mise en production de la préservation numérique.

Je dois dire que j’ai été frappée par le fait qu’il existe dans la communauté un besoin assez fort de justifier l’intérêt et la valeur de l’activité, et d’articuler les temporalités de la préservation numérique – c’est-à-dire, le passé (ce qu’on essaye de conserver), le présent (ce qu’on sait qu’on voudrait conserver, ce qui est utile à nos utilisateurs actuels) et le futur (les attentes inconnues des futurs utilisateurs à l’égard d’une collection inconnue).
Démontrer la valeur est essentiel dans un contexte où la préoccupation concernant les coûts est omniprésente. Il s’agit donc d’évaluer les coûts et le retour sur investissement, et en particulier la « soutenabilité », donc pas seulement les coûts de départ, mais aussi les coûts continus qui sont nécessaires pour pérenniser l’activité une fois qu’elle a démarré.

La première « keynote » posait la question des archives privées des entreprises, et de leur intérêt public. Qu’advient-il des archives numériques d’une compagnie qui disparaît, et ce dans un monde où les compagnies tendent à disparaître de plus en plus vite ou fréquemment… L’exemple de Brobeck Closed Archive montre le type de « sauvetage » qu’on peut envisager si on intervient au moment où la société est mise en faillite.
Ensuite nous avons assisté à un panel sur les coûts et la soutenabilité, animé par des gens qui étaient impliqués dans le Blue Ribbon Task Force. Plusieurs d’entre eux ont argumenté sur le fait qu’il faut prouver la valeur de l’activité de préservation numérique au regard de l’accès et des utilisateurs actuels, pas futurs. Ainsi pour convaincre, il ne faut pas dire aux gens qu’on va les aider à préserver leur données, il faut leur dire qu’on va les aider à faire leur travail. Mais ce n’est pas évident pour tous les types de collections numériques (penser aux archives du Web…) : on ne peut pas toujours se baser sur la loi de l’offre et de la demande en supposant que ceux qui offrent (les gens qui préservent) et ceux qui demandent (les usagers) sont les mêmes, ou que les premiers connaissent effectivement les besoins des seconds. C’est un problème qu’on connaît bien en bibliothèque.

Les deux autres sessions plénières, l’une consacrée à l’archivage des mondes virtuels, l’autre aux données ouvertes de la recherche, posaient aussi la question de la valeur et du temps.
J’ai bien aimé ces deux présentations, car elles étaient très ancrées dans la réalité du Web d’aujourd’hui, posant la question de la construction de la mémoire du Web, non pas en termes de publications au sens traditionnel, mais en terme de processus, d’humain, et « d’histoire ».
Ainsi pour garder la mémoire des mondes virtuels comme second life, savoir reproduire le fonctionnement du logiciel n’est pas très utile. Ce qu’il faut, c’est être en mesure de conserver le « contexte »de ce qui se passe dans ces mondes, c’est à dire des traces de ce que les gens y vivent et de ce qu’ils en retiennent : des copies d’écran, des billets de blog, des films etc.
Mais au fait : on ne préserve pas le Monde lui-même, seulement des documents qui le décrivent… préserver les mondes virtuels m’a fait l’effet d’une utopie d’historien un peu folle.
En ce qui concerne les données de la recherche, on retombe sur l’enjeu de gérer dans la même temporalité l’ouverture des données et leur préservation. C’est le but du projet Data-pass. Il faut gérer dans un même « mouvement » l’ouverture des données, la confidentialité et les autres questions juridiques, et la problématique de réutilisation des données, le tout dans une perspective de pérenniser les données de la recherche. Quand on parle des « données », cela signifie, pas seulement à travers les vues limitées qu’on en a dans les publications (comme les articles) des chercheurs, mais aussi en rendant possible la réutilisation des données source et la création de nouvelles connaissances.

Finalement, toutes ces réflexions montraient un certain réalisme, parfois un peu désabusé, face à la préservation numérique. On voudrait bien pouvoir conserver tout, pour toujours, mais on n’en a pas les moyens, il va donc falloir choisir. On se pose aussi des questions sur ce que cela nous coûtera de ne pas faire de préservation numérique. Avec le numérique, le nouveau sens de « pour toujours » c’est « pour 10 ans ». Et il ne faut pas avoir honte de faire de la préservation très basique, au niveau du train de bits, car c’est déjà mieux que rien.
Dernière idée qui me semble importante à retenir sur ce thème : la valeur réside dans les contenus et dans l’humain, pas dans la technologie. C’est toujours utile de le rappeler.

Dublin Core, le pouvoir de la simplicité

Suite à une suggestion de Stéphane, je voudrais faire le point sur une question souvent posée quand on parle de Dublin Core : est-ce que le fait d’utiliser Dublin Core va appauvrir mes données ?

La réponse est plus complexe que juste « oui » ou « non ».

D’abord, il n’y a pas un seul Dublin Core. Le Dublin Core, c’est un ensemble de standards dont j’avais rappelé l’articulation dans un précédent billet. Relisez-le, c’est un pré-requis pour la suite.

Maintenant si vous prenez des données dans un format richement structuré, par exemple MARC, et qu’une fois passé en XML, vous lui appliquez une conversion pour le transformer en « Dublin Core simple », oui, vous allez appauvrir vos données, et ce pour trois raisons :
le DC dit « simple » se limite aux 15 éléments « de base » et ne permet pas d’exprimer la richesse contenue dans les Dublin Core metadata terms, donc vous serez obligé de choisir pour chacun de vos éléments en MARC une cible assez générique (par exemple, tous les types de titre, titre propre, titre parallèle, titre original et que sais-je encore vont tous atterrir en « dc:title ») ;
– exprimée en XML, votre notice en DC doit respecter le schéma XML du DC simple, il est donc exclu d’introduire la moindre fantaisie et de « rajouter » quoi que ce soit qui vous permettrait d’exprimer une information plus fine.
Ce scénario, c’est typiquement ce qui va vous arriver si vous faites de l’OAI-PMH, car ce protocole impose de présenter ses données au format Dublin Core simple.

Mais ce n’est pas la seule façon d’utiliser le Dublin Core.
L’ensemble des classes et des propriétés exprimées dans le Dublin Core metadata terms (qui est donc plus large que les 15 éléments de base) peut en effet être utilisé pour exprimer des triplets en RDF.
Mais en RDF, contrairement à XML, chaque triplet est indépendant et signifiant indépendamment de tout contexte, ce qui signifie que je peux tout à fait utiliser pour décrire la même ressource des propriétés du Dublin Core et d’autres propriétés, venant d’autres vocabulaires ou ontologies.
L’utilisation de Dublin Core en RDF est donc deux fois plus riche :
– le vocabulaire lui-même est plus riche et plus détaillé
– et on n’est pas obligé de s’y limiter, on peut le combiner avec d’autres.
Pour prendre un exemple, si je veux décrire une ressource en précisant un lieu, je peux utiliser la propriété « dc:spatial » (qui est plus fine que « dc:coverage », celui-ci pouvant être utilisé pour la couverture temporelle aussi bien que géographique) mais aussi la combiner avec des propriétés d’une ontologie géographique permettant d’exprimer finement les coordonnées (latitude, longitude) du lieu.
Ainsi, pour reprendre mon exemple ci-dessus, si je passe ma notice MARC en RDF, il est probable que certaines parties de la notice pourront être exprimées en utilisant des propriétés du DC, et d’autres non, mais ce n’est pas un problème, je peux les combiner.

Et l’interopérabilité, dans tout ça, me direz-vous ?
C’est vrai, le principal atout du Dublin Core, c’est interopérabilité, et c’est pour cela que l’OAI-PMH impose le Dublin Core simple, partant du principe qu’il permet de décrire tout type de ressources.
Pourtant, l’utilisation du DC simple en XML pose de GROS problèmes d’interopérabilité : comme il appauvrit les données, il y a une infinité de façons de l’appliquer, et les résultats, à la fin, sont rarement compatibles : on a tendance à « bourrer » l’information tant bien que mal dans les 15 éléments, voire à les répéter un nombre incalculable de fois au point de ne plus savoir où on en est. Mais bon, c’est toujours mieux que rien ; donc on crée des règles, ou des profils d’application, pour s’assurer que tout le monde fait (un peu) la même chose.
En RDF, le Dublin Core est un vrai atout pour l’interopérabilité car il permet à une multitude de gens d’exprimer la même chose de la même manière, à un niveau de granularité plus fin. Au lieu que chacun réinvente la roue et crée sa propre propriété « titre », ou « auteur », on utilise le Dublin Core, qui permet au moins, pour un large ensemble de ressources décrites en RDF, de repérer assez facilement les « titres » et les « auteurs ». Ensuite, on complète avec d’autres propriétés créées exprès ou prises dans d’autres vocabulaires.
C’est la raison pour laquelle le DC joue un rôle essentiel dans le Linked Data, qui est d’ailleurs le sujet de la conférence DC 2009 à Séoul.

IFLA (4) – User generated content, tagging sémantique et Web 2.0

Mieux vaut tard que jamais ;-) je poursuis ma série de comptes-rendus de l’IFLA (ce qui me rassure c’est qu’en regardant les autres blogs la plupart n’ont pas eu beaucoup plus de temps que moi pour bloguer pendant le congrès… C’est que ça occupe, un congrès de l’IFLA…)

Un autre thème sur lequel je voudrais revenir, c’est celui des contenus générés par les utilisateurs (UGC de leur petit nom).

Comme nous avons beaucoup parlé de Web 2.0, la question du « tagging » s’est posée à différentes reprises, avec un constat un peu déprimant : les utilisateurs ne vont pas tagguer dans les catalogues de bibliothèque. Faire des listes, oui, tagguer ailleurs, peut-être, mais dans les catalogues ? peu de chances.
Un jour autour d’un verre, nous avons échangé quelques idées amusantes pour essayer d’envisager une méthode pour contrebalancer cette tendance… Par exemple un système similaire à Booking.com : quelques jours après la fin de votre séjour, on vous envoie un mail avec un questionnaire pour évaluer l’hôtel. Et si on faisait de même quand un lecteur emprunte un livre à la bibliothèque ?
Une autre idée consistait à proposer une étagère de retour de prêt qui serait compartimentée en fonction de l’intérêt du bouquin (intéressant – ennuyeux – etc.) : apparemment ça a déjà été testé, si vous avez vu ça quelque part je serais curieuse d’en avoir la référence.
Blague à part, ce qu’il faut en retenir comme toujours, c’est que si on veut générer des contributions des utilisateurs, il faut que ce soit 1. facile, 2. pertinent par rapport à leur pratique, et 3. que cela fasse partie d’un dispositif d’incitation.
Ces trois critères sont semble-t-il parfaitement remplis par l’application de correction de l’OCR de la numérisation de la presse à la Bibliothèque nationale d’Australie (voir la présentation de Pam Gatenby à l’IFLA – voir le site – voir les informations sur le projet). Et ça marche : comme quoi, on peut arriver à mobiliser les utilisateurs sur des tâches pénibles et en plus ils adorent ça ;-) Noter qu’ils diffusent le code de leur application en open source.

Face aux possibilités du Web 2.0, la question critique de l’indexation sujet a été posée (pendant la table ronde de la conférence satellite Emerging trends… à Florence) : devrait-on arrêter d’indexer de façon aussi complexe que nous le faisons aujourd’hui ? L’indexation sujet, jugée à la fois coûteuse à produire et trop complexe à utiliser, était en question.
A mon avis à l’heure actuelle prendre une décision aussi radicale est impossible, d’autant qu’on sait pertinemment que les utilisateurs veulent des accès sujets, et qu’ils ne veulent pas les créer eux-mêmes (puisqu’ils ne veulent pas tagguer dans les catalogues).
Une solution envisageable pourrait résider dans le « tagging sémantique » par des bibliothécaires : c’est-à-dire, en fait, exploiter la richesse des vocabulaires contrôlés, mais sans la contrainte de la syntaxe, et en utilisant la puissance des ontologies pour les relier et les augmenter.
C’est intéressant, mais il va falloir du temps pour mesurer toutes les implications d’une telle évolution. Elle mériterait d’être organisée, évaluée, préparée au niveau international, pour permettre une évolution concertée des données bibliographiques dans le monde, vers le Web sémantique. L’IFLA peut sûrement jouer un rôle dans ce type de changements.
Et puis, mon petit doigt me dit qu’on a pas encore imaginé toutes les possibilités qu’ouvre une initiative comme Rameau en skos en termes d’exploitation sémantique des données…

Au final, et pour en finir avec le Web 2.0 dans les bibliothèques à l’IFLA, je voudrais noter une idée que j’ai retenue des différents événements qui ont abordé cette question, en particulier la conférence satellite, la session « Social computing tools for learning and knowledge sharing » (dans laquelle j’ai particulièrement apprécié l’intervention de Moira Fraser), et la rencontre du SIG « Libraries and the Web 2.0 ». Cette idée c’est que la bibliothèque 2.0 commence avec des petites choses toutes simples : avoir un compte Twitter, un blog, communiquer par l’image et la vidéo et pas seulement par du texte, sortir du paradigme de la présentation magistrale avec powerpoint. Être 2.0, c’est un peu comme se brosser les dents après chaque repas, ou manger cinq fruits et légumes par jour : quelque chose qui doit rapidement devenir un réflexe naturel du quotidien, pas une contrainte. Sinon, c’est voué à l’échec.

IFLA (3) – Impressions du congrès

Hier c’était la fin du congrès de l’IFLA. J’étais encore à Milan pour travailler aujourd’hui, mais il traînait dans l’air une sensation de fin d’aventure, que je ressens souvent au moment de rentrer après ce genre d’événement.
Sans céder à la nostalgie du moment, je vous propose un petit parcours en image de ce 75e congrès de l’IFLA à Milan…

Si on parle de congrès, c’est parce qu’il s’y passe bien autre choses que les conférences formelles, dont vous retrouverez tous les textes dans le programme, pour une bonne part traduits en français.

Il y a aussi des événements moins formels, comme la session du groupe d’intérêt spécialisé (SIG) sur les bibliothèques et le Web 2.0 : une session qui a attiré tellement de monde, et dans une petite salle, que pas mal de gens (dont votre serviteuse) étaient assis par terre…

Le congrès de l’IFLA, c’est aussi un salon avec des stands, et une session de « posters ». D’une façon générale, on passe beaucoup de temps à faire la queue, surtout pour essayer d’avoir à manger.

Pendant le congrès, les différentes sections se réunissent plusieurs fois : deux comités permanents pour travailler, plus d’éventuels sous-groupes de travail sur des sujets particulier. Sans compter les occasions moins formelles bien sûr ;-)

Enfin, le congrès est l’occasion de proposer un certain nombre d' »événements sociaux » qui permettent de découvrir la vie et la culture de la ville qui nous accueille, parfois en grande pompe. Nous avons même eu droit à un concert réservé à la Scala !

Avec tout ça, il faut se garder un peu de temps pour souffler, visiter, se promener et faire du shopping. Devinez ce que j’ai acheté…

Bref, merci à Milan pour ce bel accueil !!!

IFLA (2) – La valeur des données

Comme dans toute conférence internationale, la valeur ajoutée de l’IFLA se situe souvent autant dans les conversations informelles, à la terrasse des cafés, que dans les conférences elles-mêmes.

Parmi les différents points abordés aussi bien de façon formelle qu’informelle, au cours de la conférence satellite à Florence et des premières rencontres qui ont eu lieu dans le cadre du congrès de l’IFLA lui-même, Je vais être obligée de choisir bien arbitrairement ceux que je vais développer, parmi bien d’autres sujets tout aussi intéressants.

Le premier que je vous propose dans cette série concerne la valeur des données.

L’une des questions qui se posent lorsqu’on parle de linked data, ou même simplement d’open data, c’est la question de la valeur. Souvent posée en termes de popriété juridique (licensing), elle témoigne d’une crainte, diagnostiquée comme étant celle des décideurs, que les données soient « volées », « aspirées », ou autrement indument exploitées.
L’analyse généralement partagée ici, plutôt à un niveau perçu comme opérationnel ou technique, est qu’il faut dépasser cette vision héritée du monde des biens physiques et ouvrir les données, faciliter leur réutilisation, aussi bien techniquement que juridiquement. Je parle ici des données produites par la bibliothèque, pas des contenus qui pourraient être couverts par des droits de propriété intellectuelle. Mais en ce qui concerne les contenus, existe également la préoccupation que ce qui est dans le domaine public reste dans le domaine public, et ne fasse pas l’objet d’une nouvelle protection, par les institutions, à l’occasion de la numérisation. Je ne développerai pas davantage sur ce point, et vous renvoie à S.i.lex qui couvre remarquablement tous ces sujets.

Personnellement, ce qui m’intéresse davantage, c’est une approche complémentaire qui consiste à dire qu’un véritable changement de paradigme est nécessaire et qu’il doit porter non seulement sur l’ouverture des données, mais aussi sur la façon de mesurer leur valeur. Les indicateurs portant sur les collections (nombre d’items…) et sur les utilisateurs (nombre de visites/lecteurs) devraient être remplacés par des indicateurs qualitatifs et quantitatifs permettant de mesurer la valeur des données ouvertes : nombre de réutilisations dans différents contextes, nombre de liens, etc.
Cette question de la valeur (et du changement de paradigme) est abordée dans la communication sur l’API d’Europeana que j’ai traduite en français.

Puisqu’on parle de valeur, il se trouve que justement j’ai assisté ce matin à la session sur les statistiques dans laquelle je présentais un article sur les archives du Web (très largement rédigé par Gildas Illien). Dans cette session il était justement question d’évaluation et différentes méthodes et cas d’utilisation ont été présentées.
J’ai été assez frappée notamment par le projet NUMERIC, un projet européen présenté par Roswitha Poll, qui porte sur l’évaluation de la numérisation au niveau européen. C’est surtout la méthodologie qui m’intéresse ici.
L’évaluation continue par des indicateurs fournis régulièrement (type nombre de documents / notices / lecteurs etc.) n’est pas la seule méthode d’évaluation. Lorsqu’on essaye de couvrir un territoire ou une activité qui est au-delà des frontières d’une institution, l’évaluation par questionnaire peut être plus pertinente. Elle permet de réunir des informations sur les pratiques de diverses institutions, de les recouper et de donner une image à un niveau global (national ou européen) de l’impact d’une activité. Evidemment cette image n’est pas continue dans le temps, elle constitue une vision à un moment donné, et elle porte souvent sur un échantillon, plus ou moins représentatif, de données. Mais cela reste une approche essentielle qui permet de toucher du doigt certaines réalités ordinairement difficile à saisir.
C’est probablement ce type d’évaluations et d’indicateurs qui nous seraient utiles pour mesurer l’impact national et international des données ouvertes et leur valeur d’usage.

IFLA (1) – satellite de Florence

L’IFLA commence avec les pré-conférences satellites qui se déroulent dans différentes villes à proximité de celle du Congrès.

Pour ma part, j’ai participé hier et aujourd’hui à celle qui était organisée par la section Information technology, et s’intitulait : Emerging trends in technology: libraries between Web 2.0, semantic web and search technology.

Avant toute chose, je dois dire que c’était une conférence remarquable par son ambiance, le cadre très agréable de l’université de Florence, la qualité de l’accueil, et la sympathie des participants.
Cette bonne ambiance transparaît largement dans le fil Twitter de la conférence ; c’était la première fois que je twittais une conférence en direct, et ç’a été une expérience excellente, sur le plan intellectuel et humain.
Le fait de twitter oblige à se concentrer sur le déroulé des interventions pour en repérer les points saillants ; en suivant simultanément le fil de la conférence, on avait une bonne vision de la réception de l’intervention par la salle et on voyait émerger les questions. C’est aussi excellent pour échanger des liens et des références pertinentes, en temps réel. Et pour se faire de nouveaux amis ;-)
De façon un peu périphérique, j’ai noté ce billet sur l’usage de Twitter dans les conférences… Je pense que vous n’avez donc pas fini de me voir envoyer des twits (à condition que la qualité de l’accès wifi soit aussi bonne à Milan).

En ce qui concerne le détail du contenu de ces deux jours, je vous renvoie à notre remarquable prise de notes collective sur Twitter, et je me contenterai ici d’une synthèse en soulignant les points qui me semblent particulièrement intéressants. Les présentations ainsi que le texte complet des articles seront également disponibles prochainement sur le site de la conférence.

La conférence d’ouverture (Keynote) de Stephen Abrams (Sirsidynix) a donné le ton en prônant la prise en compte des utilisateurs comme priorité numéro un pour les bibliothèques.
Définitivement, l’espace physique et l’espace numérique ne sont plus dissociables, et les relations distantes, à travers des terminaux comme l’iPhone, sont devenues primordiales. Le défi du Web 2.0, c’est le changement des rapports humains : davantage de collaboration, de multimédia, de divertissement, de participation, de gratuité, de personnalisation, de granularité. La bibliothèque de demain, c’est un monde où chacun veut être reconnu comme unique, pouvoir prendre sa clé allen pour construire son propre outil, où on ne cherche pas l’information mais où on la trouve, ou les relations sont plus importantes que les transactions.

Le reste de la conférence a montré que les bibliothèques sont totalement entrées dans l’ère du 2.0, que le Web 2.0 ne se différencie plus du Web tout court, c’est le Web dans lequel nous sommes, et nous commençons déjà à regarder au-delà, vers le Web 3.0.
Cela se manifeste en particulier par un questionnement qui a dépassé les préoccupations que nous avions il y a quelques années, soit purement techniques (comment faire un blog, qu’est-ce que RSS…) soit purement éthiques (est-ce que Wikipedia c’est mal…) Les bibliothécaires ont pris acte de ce nouveau Web, et maintenant leur question porte plutôt sur la dimension organisationnelle de leur présence dans le Web 2.0.
Sont ainsi revenues à plusieurs reprises les questions de compétences, de formation, de profil de recrutement des bibliothécaires 2.0.
La question de l’innovation est aussi essentielle et elle oppose un modèle « disruptif », qui a été présenté par Ken Chad, dans lequel on met en place une équipe dédiée qui lance des réalisations très rapidement et accepte de les voir pour une part échouer, et un modèle beaucoup plus réfléchi (mais qui n’en est pas moins nouveau à mon avis) où les bibliothécaires s’interrogent sur le réel besoin des utilisateurs et envisagent de mettre en place des moyens permettant d’évaluer le retour sur investissement des outils Web 2.0. Ce deuxième modèle a été bien illustré par Laura Rinnovati. En termes d’évaluation, le travail de Pnina Shachaf sur les services de référence en ligne était très parlant.

Au-delà de ces aspects Web 2.0, il a été beaucoup question de l’ouverture des données et de leur mise à disposition dans le Web sémantique. Nicola Benvenuti a défini le Web 3.0 en s’appuyant notamment sur le Linked data (qui en est une des composantes, mais pas la seule.)
Finalement, la conférence était assez peu technique et même sur ces questions, ce qui a été le plus abordé ce sont les aspects stratégiques de la chose : le positionnement juridique sur la diffusion des données, l’utilisation des standards, la mise en place de méthodologies de développement adaptées. Il n’a quasiment pas été question des problèmes de modélisation des données, sauf pour dire (je l’emprunte à Martin Malmsten de Libris) qu’elle peut durer éternellement, et qu’il ne faut surtout pas attendre d’avoir fini pour commencer à mettre en place des réalisations. Anne Christensen, en présentant son très intéressant projet de catalogue nouvelle génération Beluga, a posé la question du « make or buy » : faut-il acheter une solution toute faite ou développer en interne avec des briques open source ? A Hambourg ils ont opté pour le second choix, ce qui leur permet d’employer des méthodes itératives et centrées utilisateur.

Le Web 2.0 et le Web sémantique se rencontrent assez naturellement, à travers des projets de type mash-ups (j’en ai évoqué quelques-uns dans ma présentation) ou des projets comme EnTag de Ukoln qui visent à rapprocher les principes des folksonomies et ceux des ontologies. Sur le même sujet, la présentation d’Alefeh Sharif était très pertinente également.
Evidemment cela m’a rappelé des propos que Got tenait il y a déjà trois ans

Le grand absent de cette conférence, c’était le troisième thème appelé par le programme : « search technologies ». Nous l’avons un peu évoqué pendant la table ronde, mais surtout pour constater que dans notre communauté, les compétences permettant de maîtriser les technologies de recherche d’information non structurée, voire non textuelle, font cruellement défaut. Ce sera un bon sujet pour une prochaine conférence…

Les données bibliographiques sur le Web

Martha Yee nous a proposé dernièrement une intéressante réflexion : Can bibliographic data be put directly onto the semantic Web ?
Dans cet article, elle relate une expérimentation qu’elle a réalisée sur la FRBRisation et RDFisation de données bibliographiques, et qui débouche sur une liste de 13 questions qu’elle se pose sur l’utilisation de RDF pour exprimer des données bibliographiques.
Son article est intéressant même si à mon avis il part parfois sur des malentendus (par exemple, l’idée que RDF a été conçu pour l’intelligence artificielle ou encore la nécessité de « réguler » l’attribution des URI au niveau global). Toutefois beaucoup des questions qu’elle se pose me semblent plutôt relever de la modélisation de nos données en tant que telle (et de faiblesses dans le modèle FRBR et autres) plutôt que de l’utilisation de RDF.
De même, à différentes reprises, les problématiques liées à la modélisation sont mêlées avec celles qui relèvent plutôt des applications qui vont utiliser les données, ce qui ne simplifie pas la lecture de l’article.

On retrouve ces considérations chez Karen Coyle, qui a rédigé une série de réponses extrêmement pertinentes sur son blog :
introduction
– réponse aux questions : 1 et 2,
– réponse aux questions : 3, 4 et 5,
– réponse aux questions : 6, 7 et 8,
– réponse aux questions : 9, 10 et 11,
– et enfin réponse aux questions : 12 et 13.
Je conseillerais pratiquement de lire ces réponses plutôt que (ou au moins, en même temps que) l’article original. Elles contribuent à clarifier extrêmement les choses et soulèvent plein de défis passionnants sur ce qu’il faudra remettre en cause dans nos pratiques à l’heure de passer les formats MARC en RDF.

Je complèterais cette série de lectures par un billet d’Eric Hellman sur son très excellent blog, dans lequel il demande malicieusement : Can librarians be put directly onto the semantic web ?
Le problème ne réside en effet pas uniquement dans les données, mais aussi dans le fait que les bibliothécaires vont devoir changer de paradigme. Je le cite (et le traduis) :

Alors que les métadonnées des bibliothèques ont traditionnellement été conçues pour pour aider des humains à trouver et utiliser l’information, les technologies du Web sémantique sont conçues pour aider des machines à trouver et utiliser l’information. Les métadonnées étaient destinées à être vues et exploitées par des humains, ce qui a été à l’origine d’une relation plutôt inconfortable avec les bases de données relationnelles. Les ontologies du Web sémantique, au contraire, sont faites pour rendre les métadonnées compréhensibles et exploitables pour les machines. Une ontologie est déjà une sorte de programme informatique, et concevoir un schéma RDF est la première étape pour indiquer à un ordinateur comment traiter un certain type d’information.

Et d’assimiler le travail de Martha à celui d’un programmeur, parce que dans sa démarche de modélisation, elle imagine les comportements de la machine vis-à-vis des données.

Pour aller encore au-delà (et faire plaisir à mon geek préféré qui va faire des bonds sur sa chaise en lisant tout ça), je dirais que dans un monde idéal, le Web sémantique devrait nous permettre de nous abstraire de la façon dont les humains et les machines vont utiliser les données. Si le modèle est fait correctement, il devrait permettre à d’autres d’inventer de nouvelles façons, non-bibliothéconomiques, de traiter nos données.
Mettre les bibliothécaires sur le Web sémantique, c’est dans une certaine mesure accepter de lâcher prise sur les données bibliographiques.

L’IFLA et moi

Comme vous pouvez le lire sur le blog du CFI (le Comité français IFLA), cette année j’ai eu la chance de bénéficier d’une bourse pour participer au congrès de l’IFLA à Milan.

Je vais d’abord assister à la conférence satellite de la section Technologies de l’Information, dont je fais désormais partie. Cette conférence aura lieu juste avant l’IFLA et aura pour thème Emerging trends in technology: libraries between Web 2.0, semantic web and search technology et j’y présente une courte intervention d’état de l’art sur le Linked data.

Le congrès lui-même aura lieu du 22 au 27 août et j’y présente aussi une communication, rédigée avec Gildas, sur les indicateurs des archives du Web.

Tout ceci sera pour moi l’occasion d’accorder enfin un peu de temps à mon blog et de vous présenter mes réflexions au fur et à mesure (j’espère : si les moyens techniques le permettent). Et de décrypter un peu cette mystérieuse entité qu’est l’IFLA…

Le mapping ultime

Dans ce communiqué de presse, est annoncée la naissance d’une initiative ambitieuse : Vocabulary mapping framework.
Il s’agit d’une extension des travaux de rapprochement entre les RDA et ONIX, visant à rendre intéropérables les principaux standards de métadonnées descriptives : Dublin Core, Onix, RDA, MARC21, DOI, FRBR, LOM, etc.
La méthode proposée : réaliser un mapping universel permettant de créer des passerelles (crosswalks) entre ces vocabulaires afin de faciliter les transformations d’un format à un autre. Les mappings seront exprimés en RDF/OWL. Ce résultat est attendu pour le 9 novembre 2009, où il sera formellement présenté lors d’une conférence à la British Library.
Les étapes suivantes envisagées sont la génération automatique de mappings entre n’importe quelle paire de formats, et l’existence d’un site qui permettra de maintenir et de faire évoluer les conversions.
Derrière le projet, on trouve le DOI, la British Library et le JISC (entre autres).

Mon avis personnel : le projet n’est pas seulement ambitieux, mais un petit peu délirant. J’ai beau croire fort dans les technologies du Web sémantique, pas sûr qu’elles permettront de résoudre tous les problèmes de mappings en 6 mois.
Et puis :
– est-ce que cela a vraiment un sens de faire un mapping absolu, indépendamment de la nature et de la spécificité des données et de la façon dont chaque format est implémenté ?
– n’y a-t-il pas un peu à boire et à manger dans la liste de métadonnées ci-dessus (des formats, des modèles conceptuels, des vocabulaires, des systèmes, etc…)
– enfin quel est l’intérêt du DOI (et de l’IDF, International DOI Foundation) pour soutenir un tel projet : le revendre ? vendre les résultats ? vendre le service ? rendre plus de gens dépendants du DOI ? mettre le DOI au centre du monde (ce petit monde qu’est le milieu de l’informatique documentaire) ?

A suivre de très près.

Partager les fonctions d’archivage

La partie 6 de l’OAIS (qu’est-ce que c’est ?) intitulée « Archives Interoperability » n’est pas la plus connue du modèle. Pourtant elle n’est pas inintéressante.

Elle distingue trois modes possibles d’interaction entre plusieurs archives OAIS :
– la coopération : les archives servent une même communauté d’utilisateurs et de producteurs, donc elles partagent les mêmes standards, mais fonctionnent de manière indépendante
– la fédération : les archives servent une même communauté d’utilisateurs et partagent leur « catalogue », mais pas les fonctions d’archivage
– les archives partagées : elles mutualisent certaines fonctions (par exemple le stockage) pour réduire les coûts, mais servent des communautés d’utilisateurs et de producteurs distinctes.

Le premier modèle, la coopération, est relativement simple et permet de mettre en place par exemple des échanges d’AIP pour augmenter le nombre de copies redondantes et/ou la disponibilité du service.

Les deux autres modèles sont cependant à mon avis ambigus du point de vue du traitement des données, de l’entité « Gestion de données » et de l’entité « Planification de la préservation ».

Dans le modèle fédéré, le fait de disposer d’un catalogue commun pose la questions des identifiants d’AIP qui doivent être globalement unique d’une archive à l’autre. Je trouve le modèle un peu daté sur ce point : si tout le monde utilisait des URI on n’aurait pas de problème ;-) de même il ne me semble pas indispensable de répliquer les AIP pour fournir un service mutualisé de façon transparente pour l’utilisateur final.
L’idée de catalogue commun est aussi ambigüe : s’agit-il d’un catalogue au sens métadonnées descriptives, ou au sens de l’OAIS ? C’est à dire, est-ce que les fonctions de recherche sont purement déterminées en fonction des besoins de l’utilisateur final, ou est-ce qu’elles incluent les recherches spécifiquement techniques qui permettent, par exemple, d’élaborer un plan de migration ?
Je trouve que tout cela n’est pas très clair par rapport aux fonctions que l’on connaît habituellement dans Accès (qui doit coordonner les demandes des utilisateurs, à la fois en requêtes et en paquets) et dans Planification de la Préservation.

Dans le modèle partagé, l’OAIS préconise que pour partager le stockage il faut aussi partager l’entité « Gestion de données ». Seules les fonctions « Versement » et « Accès » restent séparées, de même qu’Administration (comment Administration peut-il être être vraiment séparé ???). Quant à la Planification de la préservation, elle n’apparaît même pas sur le schéma.
Si je devais partager mon Stockage avec mon voisin, je crois que cela me gênerait de partager mon « Gestion de données » et mon « Planification de la préservation » avec lui. Enfin, je suppose qu’il faut comprendre que comme Accès reste séparé, c’est lui qui filtre qui a le droit de requêter quoi.
La version en cours de relecture (jusqu’au 15 juin !) pour la révision quinquennale de l’OAIS ajoute une chose importante, la possibilité de partager un répertoire de formats. Mais le paragraphe ajouté me semble flou au possible.

J’aurais aimé que la partie 6.2 développe les contraintes de management des archives partagées, et pas seulement des archives fédérées. Mais je crois que j’ai loupé le coche, il va falloir attendre la prochaine révision, dans 5 ans :-(

Amis experts de préservation, lâchez vos com’s.