Livres dans le Linked Data

Il y a quelques temps, j’étais au Bookcamp 2 à Paris, où j’avais proposé d’animer un atelier sur le Web de données.

Pourquoi le Web de données ? Parce qu’il me semble urgent que les gens du livre – et pas seulement les bibliothèques – réfléchissent si possible ensemble à l’exploitation et à la valorisation de leurs métadonnées sur le Web, dans un mode ouvert, partagé et collaboratif.
Quand je dis collaboratif, ce n’est pas au sens « Web 2.0 » (je te taggue, tu me taggues par la barbichette etc.) mais plutôt au sens du Web de données : chacun produit ses données de façon standard, les met à disposition sur le Web de façon ouverte, et tout le monde peut les réutiliser et créer de la valeur.
L’avantage du Web sémantique dans ce contexte, comme je l’expliquais dans le « use case » présenté à Florence et sur lequel je suis revenue dans l’atelier du bookcamp, c’est de ne pas obliger toute la chaîne des producteurs à adopter le même format de métadonnées (ce qui est impossible, comme la vie nous le prouve chaque jour) et d’éviter les conversions d’un format à l’autre.

Probablement inspiré par ces cas d’utilisation livresques, Got s’est lancé dans la création d’un démonstrateur de ce que l’on peut déjà agréger comme données sur les livres avec ce qui est disponible aujourd’hui dans le linked data, c’est à dire rien que des données ouvertes, librement disponibles, en encodées en RDF. Le résultat est là : linked book mashup.
Vous remarquerez qu’il y a déjà (un peu) de données de bibliothèques dedans : celles de Libris, les autorités de la Library of Congress, et des liens avec Rameau.
Le reste provient de Freebase, DBpedia, etc.
Je vous laisse apprécier le résultat, avec un début de FRBRisation, des données enrichies, des visuels… Des tas de choses intéressantes. L’exemple le plus complet étant le Seigneur des Anneaux.

Cela doit être dans l’air du temps, car à peut près en même temps nous avons découvert que Talis avait aussi réalisé un démonstrateur du même acabit : Semantic Library.
L’approche est assez différente, reposant sur l’idée de mettre en valeur les liens entre les œuvres, les auteurs, les personnages, les sujets, etc. et de faciliter la navigation, plutôt que sur le fait d’agréger toutes les informations sur une page en mode « mash-up ». Mais c’est également très intéressant.
Autre point à noter : le site de Talis redistribue les données de son service en linked data.

Pour en revenir au BookCamp, je pense que l’atelier a été un moment riche d’échanges et de réflexions, même si ce qui frappe au premier abord c’est le flou autour de la notion de « web sémantique » et même de « web de données ».
Nous avons essayé de dépasser les problématiques purement techniques pour voir ce que le Web de données pouvait vraiment apporter en termes de service aux gens du livre.
Bien sûr, nous sommes revenus sur la question des droits de réutilisation et des licences, et celle de la valeur des données, qui est une question centrale notamment pour les bibliothèques.
Finalement, nous avons discuté organisation et compétences (deux thèmes qui me tiennent fort à cœur ;-) car si nous voulons vraiment que le Linked Data ait un avenir dans les bibliothèques, il va falloir que différents niveaux d’acteurs s’y intéressent et s’y investissent. De ce point de vue, la désaffection de la profession pour les questions de métadonnées (yes, MARC c’est tellement has been) me paraît inquiétante. J’espère qu’en démontrant les possibilités du Web sémantique pour le livre, nous pourrons réhabiliter un peu l’intérêt de ces choses certes à première vue un peu techniques et rébarbatives, mais tellement importantes.

IPRES 2009 (2) – les processus et l’Humain

Un deuxième thème récurrent de la conférence IPRES (après « la valeur et le temps ») c’est l’approche organisationnelle et humaine de la préservation numérique.

J’avoue que je suis arrivée à IPRES avec une attention particulière pour ce sujet, dans la mesure où je présentais moi-même un article, rédigé avec Louise Fauduet, sur les problématiques organisationnelles et humaines du numérique. Le programme m’avait laissé à penser que cet aspect serait peut traité mais en réalité, il était assez omniprésent. Ça prouve, semble-t-il, que « moving into the maintream » n’était pas seulement un vœu pieu pour le titre de la conférence, mais une réalité des actions menées par les uns et les autres.

La question des organisations a été en particulier traitée à travers celle des réseaux et de la constitution d’archives distribuées, et ce en particulier dans la présentation de Martha Anderson de la Library of Congress, et au cours du Panel qui a suivi.
Martha a présenté les résultats d’une étude réalisée par IBM pour le NDIIPP. Elle nous a montré différents modèles de réseaux d’organisations, avec un pilotage plus ou moins fort, et ce qu’ils impliquent en termes d’efforts et de coûts. Le panel portait sur la mise en place de Private LOCKSS Networks.
J’ai bien aimé la réflexion sur le passage à l’échelle de la collaboration. C’est un peu comme la commission européenne… quand on est peu nombreux on arrive à fonctionner de façon informelle, mais si on veut s’étendre et accueillir de nouveaux membres, il faut passer par une phase de formalisation des stratégies, de la politique, de la gouvernance, et aussi des méthodes d’accompagnement et de formation.
Les effets de seuil existent aussi bien sur le plan technique, quand on passe de quelques centaines de GigaOctets à plusieurs dizaines ou centaines de Téra, que sur le plan organisationnel et humain. Cela implique aussi la mise en place d’outils appropriés comme les « micro-services » de la California Digital Library ou le système proposé par Chronopolis.

L’analyse des processus et la mise en place d’outils comme des guides de bonnes pratiques pour fluidifier les processus jouent un rôle essentiel dans cette formalisation.

Il existe des initiatives telles que les travaux réalisés par le réseau allemand Nestor sur la négociation du versement (« Into the archive »), ou les résultats du projet européen Planets. Toutefois on peut se demander, et la question a été posée en ces termes, qui fait réellement de la planification de la préservation aujourd’hui… Les différentes enquêtes réalisées dans le cadre de projets européens (et je dis, différentes, à dessein car il y en a eu plusieurs, souvent apparemment redondantes…) montrent encore pas mal d’incertitudes sur les actions à prendre, les stratégies à adopter, les normes à recommander.

Le lendemain d’IPRES, j’ai assisté à la journée « Active solutions » organisée par le consortium IIPC pour l’archivage du Web, et je dois avouer que j’ai été impressionnée par le degré de maturité de cette communauté sur toutes ces questions.
Leur approche des questions techniques (comme le format WARC) est résolument pilotée par une vision de long terme qui intègre les problématiques de planification de la préservation dès le début de la chaîne. L’après-midi était consacré aux questions d’organisation et de processus.
Cette journée m’a donné à penser que les « web-archivistes », une fois qu’ils auront résolu leurs (enôôôrmes) problèmes techniques, auront tellement d’avance qu’ils seront capables d’absorber tous les problèmes de préservation numérique des bibliothèques, enfin d’en réduire l’onde de choc, un peu comme un gros air-bag. Plus que jamais, préserver la mémoire du Web m’est apparu non pas comme un défi un peu fou, mais comme une action organisée, qui a du sens dans la perspective de l’histoire et des collections.
Une grande bouffée d’espoir donc ;-)

IPRES 2009 (1) – La valeur et le Temps

La conférence IPRES 2009, dédiée à la conservation numérique, vient de se terminer. Elle était cette année accueillie par l’Université de Californie – San Francisco et organisée par la California Digital Library.

Je m’épate moi-même quand je vois la complétude avec laquelle j’avais couvert l’événement en 2006, à Cornell… Aujourd’hui, une bonne partie de mon énergie est passée sur Twitter, où la conférence était couverte en direct par plusieurs personnes (tag #ipres09). Pour ceux qui dorment la nuit, vous pouvez aussi consulter le blog de Chris Rusbridge, qui a couvert en temps réel une bonne partie des sessions, à raison d’un billet par présentation.

Pour ma part, je vais me contenter d’une synthèse assez générale.
IPRES est résolument devenu un événement incontournable pour les bibliothécaires qui gèrent des collections numériques. Cette année le thème « moving into the mainstream » laissait supposer une certaine maturité du sujet et des questionnements liés à la mise en production de la préservation numérique.

Je dois dire que j’ai été frappée par le fait qu’il existe dans la communauté un besoin assez fort de justifier l’intérêt et la valeur de l’activité, et d’articuler les temporalités de la préservation numérique – c’est-à-dire, le passé (ce qu’on essaye de conserver), le présent (ce qu’on sait qu’on voudrait conserver, ce qui est utile à nos utilisateurs actuels) et le futur (les attentes inconnues des futurs utilisateurs à l’égard d’une collection inconnue).
Démontrer la valeur est essentiel dans un contexte où la préoccupation concernant les coûts est omniprésente. Il s’agit donc d’évaluer les coûts et le retour sur investissement, et en particulier la « soutenabilité », donc pas seulement les coûts de départ, mais aussi les coûts continus qui sont nécessaires pour pérenniser l’activité une fois qu’elle a démarré.

La première « keynote » posait la question des archives privées des entreprises, et de leur intérêt public. Qu’advient-il des archives numériques d’une compagnie qui disparaît, et ce dans un monde où les compagnies tendent à disparaître de plus en plus vite ou fréquemment… L’exemple de Brobeck Closed Archive montre le type de « sauvetage » qu’on peut envisager si on intervient au moment où la société est mise en faillite.
Ensuite nous avons assisté à un panel sur les coûts et la soutenabilité, animé par des gens qui étaient impliqués dans le Blue Ribbon Task Force. Plusieurs d’entre eux ont argumenté sur le fait qu’il faut prouver la valeur de l’activité de préservation numérique au regard de l’accès et des utilisateurs actuels, pas futurs. Ainsi pour convaincre, il ne faut pas dire aux gens qu’on va les aider à préserver leur données, il faut leur dire qu’on va les aider à faire leur travail. Mais ce n’est pas évident pour tous les types de collections numériques (penser aux archives du Web…) : on ne peut pas toujours se baser sur la loi de l’offre et de la demande en supposant que ceux qui offrent (les gens qui préservent) et ceux qui demandent (les usagers) sont les mêmes, ou que les premiers connaissent effectivement les besoins des seconds. C’est un problème qu’on connaît bien en bibliothèque.

Les deux autres sessions plénières, l’une consacrée à l’archivage des mondes virtuels, l’autre aux données ouvertes de la recherche, posaient aussi la question de la valeur et du temps.
J’ai bien aimé ces deux présentations, car elles étaient très ancrées dans la réalité du Web d’aujourd’hui, posant la question de la construction de la mémoire du Web, non pas en termes de publications au sens traditionnel, mais en terme de processus, d’humain, et « d’histoire ».
Ainsi pour garder la mémoire des mondes virtuels comme second life, savoir reproduire le fonctionnement du logiciel n’est pas très utile. Ce qu’il faut, c’est être en mesure de conserver le « contexte »de ce qui se passe dans ces mondes, c’est à dire des traces de ce que les gens y vivent et de ce qu’ils en retiennent : des copies d’écran, des billets de blog, des films etc.
Mais au fait : on ne préserve pas le Monde lui-même, seulement des documents qui le décrivent… préserver les mondes virtuels m’a fait l’effet d’une utopie d’historien un peu folle.
En ce qui concerne les données de la recherche, on retombe sur l’enjeu de gérer dans la même temporalité l’ouverture des données et leur préservation. C’est le but du projet Data-pass. Il faut gérer dans un même « mouvement » l’ouverture des données, la confidentialité et les autres questions juridiques, et la problématique de réutilisation des données, le tout dans une perspective de pérenniser les données de la recherche. Quand on parle des « données », cela signifie, pas seulement à travers les vues limitées qu’on en a dans les publications (comme les articles) des chercheurs, mais aussi en rendant possible la réutilisation des données source et la création de nouvelles connaissances.

Finalement, toutes ces réflexions montraient un certain réalisme, parfois un peu désabusé, face à la préservation numérique. On voudrait bien pouvoir conserver tout, pour toujours, mais on n’en a pas les moyens, il va donc falloir choisir. On se pose aussi des questions sur ce que cela nous coûtera de ne pas faire de préservation numérique. Avec le numérique, le nouveau sens de « pour toujours » c’est « pour 10 ans ». Et il ne faut pas avoir honte de faire de la préservation très basique, au niveau du train de bits, car c’est déjà mieux que rien.
Dernière idée qui me semble importante à retenir sur ce thème : la valeur réside dans les contenus et dans l’humain, pas dans la technologie. C’est toujours utile de le rappeler.

Dublin Core, le pouvoir de la simplicité

Suite à une suggestion de Stéphane, je voudrais faire le point sur une question souvent posée quand on parle de Dublin Core : est-ce que le fait d’utiliser Dublin Core va appauvrir mes données ?

La réponse est plus complexe que juste « oui » ou « non ».

D’abord, il n’y a pas un seul Dublin Core. Le Dublin Core, c’est un ensemble de standards dont j’avais rappelé l’articulation dans un précédent billet. Relisez-le, c’est un pré-requis pour la suite.

Maintenant si vous prenez des données dans un format richement structuré, par exemple MARC, et qu’une fois passé en XML, vous lui appliquez une conversion pour le transformer en « Dublin Core simple », oui, vous allez appauvrir vos données, et ce pour trois raisons :
le DC dit « simple » se limite aux 15 éléments « de base » et ne permet pas d’exprimer la richesse contenue dans les Dublin Core metadata terms, donc vous serez obligé de choisir pour chacun de vos éléments en MARC une cible assez générique (par exemple, tous les types de titre, titre propre, titre parallèle, titre original et que sais-je encore vont tous atterrir en « dc:title ») ;
– exprimée en XML, votre notice en DC doit respecter le schéma XML du DC simple, il est donc exclu d’introduire la moindre fantaisie et de « rajouter » quoi que ce soit qui vous permettrait d’exprimer une information plus fine.
Ce scénario, c’est typiquement ce qui va vous arriver si vous faites de l’OAI-PMH, car ce protocole impose de présenter ses données au format Dublin Core simple.

Mais ce n’est pas la seule façon d’utiliser le Dublin Core.
L’ensemble des classes et des propriétés exprimées dans le Dublin Core metadata terms (qui est donc plus large que les 15 éléments de base) peut en effet être utilisé pour exprimer des triplets en RDF.
Mais en RDF, contrairement à XML, chaque triplet est indépendant et signifiant indépendamment de tout contexte, ce qui signifie que je peux tout à fait utiliser pour décrire la même ressource des propriétés du Dublin Core et d’autres propriétés, venant d’autres vocabulaires ou ontologies.
L’utilisation de Dublin Core en RDF est donc deux fois plus riche :
– le vocabulaire lui-même est plus riche et plus détaillé
– et on n’est pas obligé de s’y limiter, on peut le combiner avec d’autres.
Pour prendre un exemple, si je veux décrire une ressource en précisant un lieu, je peux utiliser la propriété « dc:spatial » (qui est plus fine que « dc:coverage », celui-ci pouvant être utilisé pour la couverture temporelle aussi bien que géographique) mais aussi la combiner avec des propriétés d’une ontologie géographique permettant d’exprimer finement les coordonnées (latitude, longitude) du lieu.
Ainsi, pour reprendre mon exemple ci-dessus, si je passe ma notice MARC en RDF, il est probable que certaines parties de la notice pourront être exprimées en utilisant des propriétés du DC, et d’autres non, mais ce n’est pas un problème, je peux les combiner.

Et l’interopérabilité, dans tout ça, me direz-vous ?
C’est vrai, le principal atout du Dublin Core, c’est interopérabilité, et c’est pour cela que l’OAI-PMH impose le Dublin Core simple, partant du principe qu’il permet de décrire tout type de ressources.
Pourtant, l’utilisation du DC simple en XML pose de GROS problèmes d’interopérabilité : comme il appauvrit les données, il y a une infinité de façons de l’appliquer, et les résultats, à la fin, sont rarement compatibles : on a tendance à « bourrer » l’information tant bien que mal dans les 15 éléments, voire à les répéter un nombre incalculable de fois au point de ne plus savoir où on en est. Mais bon, c’est toujours mieux que rien ; donc on crée des règles, ou des profils d’application, pour s’assurer que tout le monde fait (un peu) la même chose.
En RDF, le Dublin Core est un vrai atout pour l’interopérabilité car il permet à une multitude de gens d’exprimer la même chose de la même manière, à un niveau de granularité plus fin. Au lieu que chacun réinvente la roue et crée sa propre propriété « titre », ou « auteur », on utilise le Dublin Core, qui permet au moins, pour un large ensemble de ressources décrites en RDF, de repérer assez facilement les « titres » et les « auteurs ». Ensuite, on complète avec d’autres propriétés créées exprès ou prises dans d’autres vocabulaires.
C’est la raison pour laquelle le DC joue un rôle essentiel dans le Linked Data, qui est d’ailleurs le sujet de la conférence DC 2009 à Séoul.

La journée du non-patrimoine

Et si aujourd’hui, justement, c’était le jour où je ne me préoccupais pas de l’accès de tous à la culture, de la conservation et de la transmission du patrimoine, de la médiation et de l’accès du grand public aux œuvres, de la diversité et de la richesse des contenus, de la trouvabilité de l’aiguille dans la botte de foin, de l’usager et de ses usages multiples, de l’élaboration de la connaissance et du savoir, de l’émulation culturelle des communautés, du positionnement de la collection dans l’espace et le temps, de la qualité de la donnée qui fait la qualité de l’expérience utilisateur, de la découverte et de la sérendipité, de l’exception qui rend la règle encore plus magnifique, des siècles qui nous contemplent, du grand, du beau, et de l’ancien.

Aujourd’hui, c’est ma journée du non-patrimoine.

Modéliser le Linked Data

Quand on se lance dans la modélisation, je suppose qu’à un moment on atteint un degré de complaisance (ou peut-être de folie furieuse) qui amène à tout théoriser, et pour que le modèle tienne la route, on finit par être obligé de créer des modèles qui expliquent comment on modélise les modèles.

Ça va vous paraître fou, mais en fait, c’est utile.

En juin j’ai visiblement raté une bonne occasion d’aller à Madrid pour la conférence Linked data on the Web 2009.
A noter dans les papiers de cette conférence, deux propositions intéressantes pour aider à modéliser le Linked Data.

La première, c’est IRW : Information Resources on the Web Ontology, par Harry Halpin et Valentina Presucci.
Pour les puristes, l’ontologie elle-même est ici.
Cette ontologie s’attaque à des notions sur lesquelles on peut gloser pendant des jours : les ressources informationnelles et non informationnelles, les représentations, les réalisations Web d’une ressource, et leurs URI respectives. La seule question qu’elle ne pose pas (probablement par pudeur ;-) c’est… la notion de document.

L’autre c’est un vocabulaire pour gérer la provenance dans le Linked Data, par Olaf Hartig de l’Université Humboldt de Berlin.
La spécification est ici pour les puristes, et pour ceux qui aiment plutôt les petits dessins, le powerpoint est .
Il s’agit de contribuer à l’établissement de la confiance dans le Linked Data en modélisant les informations de provenance qu’on peut associer à un ensemble de données.

Il y a plein d’autres trucs intéressants dans cette conférence. C’est juste que j’ai pas encore eu le temps de regarder.

IFLA (4) – User generated content, tagging sémantique et Web 2.0

Mieux vaut tard que jamais ;-) je poursuis ma série de comptes-rendus de l’IFLA (ce qui me rassure c’est qu’en regardant les autres blogs la plupart n’ont pas eu beaucoup plus de temps que moi pour bloguer pendant le congrès… C’est que ça occupe, un congrès de l’IFLA…)

Un autre thème sur lequel je voudrais revenir, c’est celui des contenus générés par les utilisateurs (UGC de leur petit nom).

Comme nous avons beaucoup parlé de Web 2.0, la question du « tagging » s’est posée à différentes reprises, avec un constat un peu déprimant : les utilisateurs ne vont pas tagguer dans les catalogues de bibliothèque. Faire des listes, oui, tagguer ailleurs, peut-être, mais dans les catalogues ? peu de chances.
Un jour autour d’un verre, nous avons échangé quelques idées amusantes pour essayer d’envisager une méthode pour contrebalancer cette tendance… Par exemple un système similaire à Booking.com : quelques jours après la fin de votre séjour, on vous envoie un mail avec un questionnaire pour évaluer l’hôtel. Et si on faisait de même quand un lecteur emprunte un livre à la bibliothèque ?
Une autre idée consistait à proposer une étagère de retour de prêt qui serait compartimentée en fonction de l’intérêt du bouquin (intéressant – ennuyeux – etc.) : apparemment ça a déjà été testé, si vous avez vu ça quelque part je serais curieuse d’en avoir la référence.
Blague à part, ce qu’il faut en retenir comme toujours, c’est que si on veut générer des contributions des utilisateurs, il faut que ce soit 1. facile, 2. pertinent par rapport à leur pratique, et 3. que cela fasse partie d’un dispositif d’incitation.
Ces trois critères sont semble-t-il parfaitement remplis par l’application de correction de l’OCR de la numérisation de la presse à la Bibliothèque nationale d’Australie (voir la présentation de Pam Gatenby à l’IFLA – voir le site – voir les informations sur le projet). Et ça marche : comme quoi, on peut arriver à mobiliser les utilisateurs sur des tâches pénibles et en plus ils adorent ça ;-) Noter qu’ils diffusent le code de leur application en open source.

Face aux possibilités du Web 2.0, la question critique de l’indexation sujet a été posée (pendant la table ronde de la conférence satellite Emerging trends… à Florence) : devrait-on arrêter d’indexer de façon aussi complexe que nous le faisons aujourd’hui ? L’indexation sujet, jugée à la fois coûteuse à produire et trop complexe à utiliser, était en question.
A mon avis à l’heure actuelle prendre une décision aussi radicale est impossible, d’autant qu’on sait pertinemment que les utilisateurs veulent des accès sujets, et qu’ils ne veulent pas les créer eux-mêmes (puisqu’ils ne veulent pas tagguer dans les catalogues).
Une solution envisageable pourrait résider dans le « tagging sémantique » par des bibliothécaires : c’est-à-dire, en fait, exploiter la richesse des vocabulaires contrôlés, mais sans la contrainte de la syntaxe, et en utilisant la puissance des ontologies pour les relier et les augmenter.
C’est intéressant, mais il va falloir du temps pour mesurer toutes les implications d’une telle évolution. Elle mériterait d’être organisée, évaluée, préparée au niveau international, pour permettre une évolution concertée des données bibliographiques dans le monde, vers le Web sémantique. L’IFLA peut sûrement jouer un rôle dans ce type de changements.
Et puis, mon petit doigt me dit qu’on a pas encore imaginé toutes les possibilités qu’ouvre une initiative comme Rameau en skos en termes d’exploitation sémantique des données…

Au final, et pour en finir avec le Web 2.0 dans les bibliothèques à l’IFLA, je voudrais noter une idée que j’ai retenue des différents événements qui ont abordé cette question, en particulier la conférence satellite, la session « Social computing tools for learning and knowledge sharing » (dans laquelle j’ai particulièrement apprécié l’intervention de Moira Fraser), et la rencontre du SIG « Libraries and the Web 2.0 ». Cette idée c’est que la bibliothèque 2.0 commence avec des petites choses toutes simples : avoir un compte Twitter, un blog, communiquer par l’image et la vidéo et pas seulement par du texte, sortir du paradigme de la présentation magistrale avec powerpoint. Être 2.0, c’est un peu comme se brosser les dents après chaque repas, ou manger cinq fruits et légumes par jour : quelque chose qui doit rapidement devenir un réflexe naturel du quotidien, pas une contrainte. Sinon, c’est voué à l’échec.

IFLA (3) – Impressions du congrès

Hier c’était la fin du congrès de l’IFLA. J’étais encore à Milan pour travailler aujourd’hui, mais il traînait dans l’air une sensation de fin d’aventure, que je ressens souvent au moment de rentrer après ce genre d’événement.
Sans céder à la nostalgie du moment, je vous propose un petit parcours en image de ce 75e congrès de l’IFLA à Milan…

Si on parle de congrès, c’est parce qu’il s’y passe bien autre choses que les conférences formelles, dont vous retrouverez tous les textes dans le programme, pour une bonne part traduits en français.

Il y a aussi des événements moins formels, comme la session du groupe d’intérêt spécialisé (SIG) sur les bibliothèques et le Web 2.0 : une session qui a attiré tellement de monde, et dans une petite salle, que pas mal de gens (dont votre serviteuse) étaient assis par terre…

Le congrès de l’IFLA, c’est aussi un salon avec des stands, et une session de « posters ». D’une façon générale, on passe beaucoup de temps à faire la queue, surtout pour essayer d’avoir à manger.

Pendant le congrès, les différentes sections se réunissent plusieurs fois : deux comités permanents pour travailler, plus d’éventuels sous-groupes de travail sur des sujets particulier. Sans compter les occasions moins formelles bien sûr ;-)

Enfin, le congrès est l’occasion de proposer un certain nombre d' »événements sociaux » qui permettent de découvrir la vie et la culture de la ville qui nous accueille, parfois en grande pompe. Nous avons même eu droit à un concert réservé à la Scala !

Avec tout ça, il faut se garder un peu de temps pour souffler, visiter, se promener et faire du shopping. Devinez ce que j’ai acheté…

Bref, merci à Milan pour ce bel accueil !!!

IFLA (2) – La valeur des données

Comme dans toute conférence internationale, la valeur ajoutée de l’IFLA se situe souvent autant dans les conversations informelles, à la terrasse des cafés, que dans les conférences elles-mêmes.

Parmi les différents points abordés aussi bien de façon formelle qu’informelle, au cours de la conférence satellite à Florence et des premières rencontres qui ont eu lieu dans le cadre du congrès de l’IFLA lui-même, Je vais être obligée de choisir bien arbitrairement ceux que je vais développer, parmi bien d’autres sujets tout aussi intéressants.

Le premier que je vous propose dans cette série concerne la valeur des données.

L’une des questions qui se posent lorsqu’on parle de linked data, ou même simplement d’open data, c’est la question de la valeur. Souvent posée en termes de popriété juridique (licensing), elle témoigne d’une crainte, diagnostiquée comme étant celle des décideurs, que les données soient « volées », « aspirées », ou autrement indument exploitées.
L’analyse généralement partagée ici, plutôt à un niveau perçu comme opérationnel ou technique, est qu’il faut dépasser cette vision héritée du monde des biens physiques et ouvrir les données, faciliter leur réutilisation, aussi bien techniquement que juridiquement. Je parle ici des données produites par la bibliothèque, pas des contenus qui pourraient être couverts par des droits de propriété intellectuelle. Mais en ce qui concerne les contenus, existe également la préoccupation que ce qui est dans le domaine public reste dans le domaine public, et ne fasse pas l’objet d’une nouvelle protection, par les institutions, à l’occasion de la numérisation. Je ne développerai pas davantage sur ce point, et vous renvoie à S.i.lex qui couvre remarquablement tous ces sujets.

Personnellement, ce qui m’intéresse davantage, c’est une approche complémentaire qui consiste à dire qu’un véritable changement de paradigme est nécessaire et qu’il doit porter non seulement sur l’ouverture des données, mais aussi sur la façon de mesurer leur valeur. Les indicateurs portant sur les collections (nombre d’items…) et sur les utilisateurs (nombre de visites/lecteurs) devraient être remplacés par des indicateurs qualitatifs et quantitatifs permettant de mesurer la valeur des données ouvertes : nombre de réutilisations dans différents contextes, nombre de liens, etc.
Cette question de la valeur (et du changement de paradigme) est abordée dans la communication sur l’API d’Europeana que j’ai traduite en français.

Puisqu’on parle de valeur, il se trouve que justement j’ai assisté ce matin à la session sur les statistiques dans laquelle je présentais un article sur les archives du Web (très largement rédigé par Gildas Illien). Dans cette session il était justement question d’évaluation et différentes méthodes et cas d’utilisation ont été présentées.
J’ai été assez frappée notamment par le projet NUMERIC, un projet européen présenté par Roswitha Poll, qui porte sur l’évaluation de la numérisation au niveau européen. C’est surtout la méthodologie qui m’intéresse ici.
L’évaluation continue par des indicateurs fournis régulièrement (type nombre de documents / notices / lecteurs etc.) n’est pas la seule méthode d’évaluation. Lorsqu’on essaye de couvrir un territoire ou une activité qui est au-delà des frontières d’une institution, l’évaluation par questionnaire peut être plus pertinente. Elle permet de réunir des informations sur les pratiques de diverses institutions, de les recouper et de donner une image à un niveau global (national ou européen) de l’impact d’une activité. Evidemment cette image n’est pas continue dans le temps, elle constitue une vision à un moment donné, et elle porte souvent sur un échantillon, plus ou moins représentatif, de données. Mais cela reste une approche essentielle qui permet de toucher du doigt certaines réalités ordinairement difficile à saisir.
C’est probablement ce type d’évaluations et d’indicateurs qui nous seraient utiles pour mesurer l’impact national et international des données ouvertes et leur valeur d’usage.

IFLA (1) – satellite de Florence

L’IFLA commence avec les pré-conférences satellites qui se déroulent dans différentes villes à proximité de celle du Congrès.

Pour ma part, j’ai participé hier et aujourd’hui à celle qui était organisée par la section Information technology, et s’intitulait : Emerging trends in technology: libraries between Web 2.0, semantic web and search technology.

Avant toute chose, je dois dire que c’était une conférence remarquable par son ambiance, le cadre très agréable de l’université de Florence, la qualité de l’accueil, et la sympathie des participants.
Cette bonne ambiance transparaît largement dans le fil Twitter de la conférence ; c’était la première fois que je twittais une conférence en direct, et ç’a été une expérience excellente, sur le plan intellectuel et humain.
Le fait de twitter oblige à se concentrer sur le déroulé des interventions pour en repérer les points saillants ; en suivant simultanément le fil de la conférence, on avait une bonne vision de la réception de l’intervention par la salle et on voyait émerger les questions. C’est aussi excellent pour échanger des liens et des références pertinentes, en temps réel. Et pour se faire de nouveaux amis ;-)
De façon un peu périphérique, j’ai noté ce billet sur l’usage de Twitter dans les conférences… Je pense que vous n’avez donc pas fini de me voir envoyer des twits (à condition que la qualité de l’accès wifi soit aussi bonne à Milan).

En ce qui concerne le détail du contenu de ces deux jours, je vous renvoie à notre remarquable prise de notes collective sur Twitter, et je me contenterai ici d’une synthèse en soulignant les points qui me semblent particulièrement intéressants. Les présentations ainsi que le texte complet des articles seront également disponibles prochainement sur le site de la conférence.

La conférence d’ouverture (Keynote) de Stephen Abrams (Sirsidynix) a donné le ton en prônant la prise en compte des utilisateurs comme priorité numéro un pour les bibliothèques.
Définitivement, l’espace physique et l’espace numérique ne sont plus dissociables, et les relations distantes, à travers des terminaux comme l’iPhone, sont devenues primordiales. Le défi du Web 2.0, c’est le changement des rapports humains : davantage de collaboration, de multimédia, de divertissement, de participation, de gratuité, de personnalisation, de granularité. La bibliothèque de demain, c’est un monde où chacun veut être reconnu comme unique, pouvoir prendre sa clé allen pour construire son propre outil, où on ne cherche pas l’information mais où on la trouve, ou les relations sont plus importantes que les transactions.

Le reste de la conférence a montré que les bibliothèques sont totalement entrées dans l’ère du 2.0, que le Web 2.0 ne se différencie plus du Web tout court, c’est le Web dans lequel nous sommes, et nous commençons déjà à regarder au-delà, vers le Web 3.0.
Cela se manifeste en particulier par un questionnement qui a dépassé les préoccupations que nous avions il y a quelques années, soit purement techniques (comment faire un blog, qu’est-ce que RSS…) soit purement éthiques (est-ce que Wikipedia c’est mal…) Les bibliothécaires ont pris acte de ce nouveau Web, et maintenant leur question porte plutôt sur la dimension organisationnelle de leur présence dans le Web 2.0.
Sont ainsi revenues à plusieurs reprises les questions de compétences, de formation, de profil de recrutement des bibliothécaires 2.0.
La question de l’innovation est aussi essentielle et elle oppose un modèle « disruptif », qui a été présenté par Ken Chad, dans lequel on met en place une équipe dédiée qui lance des réalisations très rapidement et accepte de les voir pour une part échouer, et un modèle beaucoup plus réfléchi (mais qui n’en est pas moins nouveau à mon avis) où les bibliothécaires s’interrogent sur le réel besoin des utilisateurs et envisagent de mettre en place des moyens permettant d’évaluer le retour sur investissement des outils Web 2.0. Ce deuxième modèle a été bien illustré par Laura Rinnovati. En termes d’évaluation, le travail de Pnina Shachaf sur les services de référence en ligne était très parlant.

Au-delà de ces aspects Web 2.0, il a été beaucoup question de l’ouverture des données et de leur mise à disposition dans le Web sémantique. Nicola Benvenuti a défini le Web 3.0 en s’appuyant notamment sur le Linked data (qui en est une des composantes, mais pas la seule.)
Finalement, la conférence était assez peu technique et même sur ces questions, ce qui a été le plus abordé ce sont les aspects stratégiques de la chose : le positionnement juridique sur la diffusion des données, l’utilisation des standards, la mise en place de méthodologies de développement adaptées. Il n’a quasiment pas été question des problèmes de modélisation des données, sauf pour dire (je l’emprunte à Martin Malmsten de Libris) qu’elle peut durer éternellement, et qu’il ne faut surtout pas attendre d’avoir fini pour commencer à mettre en place des réalisations. Anne Christensen, en présentant son très intéressant projet de catalogue nouvelle génération Beluga, a posé la question du « make or buy » : faut-il acheter une solution toute faite ou développer en interne avec des briques open source ? A Hambourg ils ont opté pour le second choix, ce qui leur permet d’employer des méthodes itératives et centrées utilisateur.

Le Web 2.0 et le Web sémantique se rencontrent assez naturellement, à travers des projets de type mash-ups (j’en ai évoqué quelques-uns dans ma présentation) ou des projets comme EnTag de Ukoln qui visent à rapprocher les principes des folksonomies et ceux des ontologies. Sur le même sujet, la présentation d’Alefeh Sharif était très pertinente également.
Evidemment cela m’a rappelé des propos que Got tenait il y a déjà trois ans

Le grand absent de cette conférence, c’était le troisième thème appelé par le programme : « search technologies ». Nous l’avons un peu évoqué pendant la table ronde, mais surtout pour constater que dans notre communauté, les compétences permettant de maîtriser les technologies de recherche d’information non structurée, voire non textuelle, font cruellement défaut. Ce sera un bon sujet pour une prochaine conférence…