Plongée dans les humanités numériques à Berlin

Cette année, mes pérégrinations estivales ne m’ont pas conduite à l’IFLA en Pologne (coucou à ceux qui y sont !) mais « seulement » à l’une des conférences satellites, organisée par la section des Bibliothèques académiques et de recherche conjointement avec DARIAH et LIBER. Cette conférence, qui s’est donc tenue à Berlin du 15 au 17 août, avait pour thème Digital Humanities – Opportunities and Risks: Connecting Libraries and Research et j’étais invitée à présenter l’une des deux « keynotes », l’occasion pour moi de parler du projet Corpus qui est l’un de mes centres de préoccupations phares du moment.

iflaDH

La conférence a commencé par une intervention introductive de Toma Tasovac, directeur du Centre pour les Humanités Numériques de Belgrade à qui a été posée la difficile question : comment peut-on définir les humanités numériques ? Il répond : avec réticence. Les humanités numériques ne sont pas une discipline, mais une communauté de pratiques.

Les présentations de la journée suivante ont brillamment illustré la diversité des pratiques en question, de l’organisation d’un éditathon dans Wikipédia à la création d’une collection d’archives web en histoire de l’art, de l’exploration approfondie d’un poème d’Apollinaire à la création d’un site collaboratif documentant le patrimoine architectural brésilien. Dans ma propre présentation, j’ai donné plusieurs exemples de projets dans lesquels la BnF a été impliquée, qui posent pour la bibliothèque la question de la mise à disposition de corpus numériques massifs dans le contexte de la science numérique (digital scholarship – expression que je trouve plus inclusive que celle d’humanités numériques, car certains des projets sur lesquels nous travaillons ne viennent pas des humanités). Ruth Wallach est revenue sur cette question de savoir « qui en est, qui n’en est pas » en citant Stephen Ramsay : sommes-nous tous des « edupunks » qui faisons des humanités numériques à la mode artisanale, avec les moyens du bord ?

Cependant, en tant que satellite de l’IFLA, cette conférence ne s’intéressait pas aux DH en soi mais en tant qu’elles questionnent le rôle des bibliothèques. Dans sa présentation, Toma Tasovac a appelé de ses vœux des bibliothèques numériques qui offriraient un accès aux textes non pas comme des objets statiques, mais sous la forme de services et de workflow, permettant non seulement de les utiliser de façon flexible via des API mais aussi de reverser les enrichissements réalisés par les chercheurs.

Sur ce dernier point, il prenait l’exemple de l’OCR en rappelant qu’il « ne faut pas avoir honte d’un mauvais OCR » mais qu’il est par contre important de permettre aux chercheurs de le corriger.

Dans ce contexte, les bibliothèques numériques sont vues comme des infrastructures qui doivent permettre aussi bien la lecture rapprochée que distante (close reading, distant reading). Elles partagent avec les DH l’enjeu de l’interopérabilité et de la communication. Certaines données peuvent être d’accès restreint (Toma utilise l’excellent euphémisme shy data) mais il est important d’expliciter les conditions de leur usage par les chercheurs : c’est le but de la future « Charte de réutilisation des données culturelles » que DARIAH et Europeana sont en train d’élaborer. Si ce sujet vous intéresse, je vous engage à répondre au sondage en cours sur les principes de la charte.

S’est également posée la question de savoir quelle formation il serait nécessaire de donner aux bibliothécaires chargés de ces questions. Lotte Wilms, qui travaille au Lab de la KB (Pays-Bas), a présenté un programme de formation sur 5 jours, qui se tiendra à la rentrée, et dont les composants essentiels rappellent fortement ce qui pourrait être la formation de base d’un data librarian...

Si vous souhaitez en savoir plus, voire rejoindre la communauté des « DH librarians », sachez que deux groupes de travail sont en train de se monter, de façon complémentaire : un groupe « libraries » au sein de DARIAH piloté par Tamara Butigan et Sally Chambers, et un groupe « Digital Humanities » au sein de LIBER piloté par Lotte Wilms et Andreas Degkwitz (plus d’infos ici). A suivre donc, l’un des prochains épisodes étant le symposium auquel je participe à Francfort en octobre : New Directions for Libraries, Scholars, and Partnerships: an International Symposium et peut-être plus près de vous géographiquement, la journée d’études de l’ADEMEC à Paris le 14 octobre : Humanités numériques et données patrimoniales : publics, réseaux, pratiques. Venez nombreux, en plus c’est gratuit !

#EuropeanaElects : ma campagne sur Twitter

europeana-test

Europeana, je la connais depuis sa plus tendre enfance. En fait, elle n’était même pas encore née qu’on était dans une salle de réunion à Luxembourg, avec quelques collègues dont certains sont depuis devenus des amis, et on parlait d’interopérabilité comme on lance une balle à la passe-à-dix, priant pour qu’elle ne retombe jamais.

Puis il y a eu cette époque où on rêvait qu’Europeana ne soit pas encore un énième portail, où devant une bière sur une place ensoleillée de La Haye on griffonnait sur un bout de papier notre idée du réseau d’informations sémantiques, œuvres, personnes, événements… qui donnerait du sens à l’information culturelle diffusée sur le web. C’est comme ça qu’on s’est lancés dans la création du Europeana Data Model, EDM de son petit nom.

Puis il y a eu l’ère des projets, avec leur cortège de « proposal submissions », « work packages », « deliverables », « prototypes » etc. Ils sont bientôt devenus tellement nombreux que même les organiser et comprendre comment ils s’articulaient les uns avec les autres était devenu un défi. Pendant ce temps, le portail, lui, s’enrichissait de nouvelles fonctionnalités, s’ouvrait à des expositions virtuelles, agrégeait toujours plus de données provenant de toujours plus d’institutions dans toute l’Europe.

Où en est-on aujourd’hui ? Une nouvelle version du portail est en train de voir le jour. Même si on est encore loin de notre rêve initial, les progrès sont énormes. Et surtout, ce qui me paraît beaucoup plus important, le portail n’est que la partie émergée de l’iceberg.

Pour moi, la grande réussite d’Europeana, ce n’est pas d’avoir agrégé toutes ces données (même si je ne dis pas que c’était facile) mais d’avoir fourni une énorme impulsion dans la communauté culturelle en Europe pour permettre la numérisation du patrimoine. Des pays ou des institutions qui n’en auraient jamais fait un axe prioritaire se sont organisés pour obtenir des financements et lancer des projets. Ceux qui s’étaient déjà lancés ont apporté leurs collections mais aussi leur savoir-faire et leur expertise. Cet effort a été transverse (archives, bibliothèques, musées, audiovisuel) et a facilité l’émergence d’une préoccupation pour l’interopérabilité des collections même quand celles-ci sont constituées d’objets par définition uniques. Enfin Europeana a été un ardent promoteur de l’open data.EUfinal01-Cloud-V8-1024x768

La stratégie d’Europeana a évolué pour aller vers une infrastructure numérique partagée dont l’objectif est de servir aussi bien la communauté des professionnels des institutions européennes que celle des usagers. Les données ont été ouvertes en Linked Open Data, et leur redistribution via des dispositifs d’API pour encourager des réutilisations diverses et variées est considéré comme aussi importante, voire davantage, que le portail lui-même. L’ambition est également de partager des outils de traitements de données, d’enrichissement, de transformation et de préservation qui permettront aux institutions qui n’ont pas les moyens de les construire d’en bénéficier et d’enrichir leurs données et leurs services.

Enfin, Europeana est devenu un réseau, une communauté. Cette communauté partage son expertise professionnelle, technique et scientifique mais aussi sa motivation et son implication pour rendre accessible la culture européenne au plus grand nombre grâce au numérique. Construire et animer une communauté est une tâche ardue et parfois ingrate, mais c’est aussi ce qui permet aux idées de naître, de murir, de circuler et finalement de déboucher sur des projets et des réalisations qui peuvent transformer davantage que nos métiers et nos communautés. Transformer le monde par la culture, c’est l’ambition d’Europeana.

EUfinal07-Impact-V9Il ne faut pas oublier qu’Europeana est née d’une idée politique : elle a encore les moyens, grâce aux énergies qu’elle fédère, de peser en faveur des politiques culturelles des États de l’Europe et d’aider à mobiliser des moyens pour continuer à les développer. C’est parce que je crois sincèrement que sans Europeana, nous ne serions pas où nous en sommes aujourd’hui en matière de développement de l’accès numérique à la culture, qu’il était important pour moi de faire partie de l’association et de candidater pour devenir membre du conseil. On m’a invitée à faire campagne pour les élections qui se dérouleront en ligne du 3 au 9 novembre : c’est l’occasion pour moi de (re)poster sur Twitter quelques liens et idées sur Europeana. A suivre sur #EuropeanaElect.

Le livre numérique en bibliothèque

Il y a quelques mois, j’ai eu la chance d’être invitée par les organisateurs du cycle « Bibliothèque en débat » (à savoir Martine Poulain, qui dirige la collection « Bibliothèques » au Cercle de la Librairie, et mes collègues de la direction des collections de la BnF) à participer à la séance portant sur le livre de Laurent Soual, Le livre numérique en bibliothèque : état des lieux et perspectives. Y participait également Guillaume de la Taille, en charge de la mise en œuvre du projet PNB au sein des bibliothèques de la ville de Paris. Vous pouvez réécouter le débat (audio, 1h24) sur le site de la BnF. A l’époque, je m’étais promis d’écrire une revue du livre de Laurent Soual, mais je n’en ai pas trouvé le temps.

Aujourd’hui, à moins de vivre dans une grotte, vous avez probablement remarqué que le service de prêt numérique lancé par les bibliothèques de la ville de Paris mi-octobre suscite quelques débats dans la communauté professionnelle. C’est donc l’occasion de ressortir le livre de Laurent Soual, qui constitue une excellente synthèse et un panorama très complet des problématiques posées par le livre numérique, pas seulement en bibliothèque d’ailleurs. On y remonte à l’origine de l’historique des initiatives actuelles, on y décortique le cadre législatif et on y décrypte le vocabulaire technique, on y présente les nombreux acteurs de la complexe chaîne du livre numérique, et on y détaille les modalités d’acquisition pour les bibliothèques, en France et à l’étranger. Pour le bibliothécaire qui veut se lancer dans le sujet et avoir une vue d’ensemble des enjeux, c’est un excellent point de départ.

Bien sûr, le livre vous donnera quelques clefs sur le projet PNB (Prêt numérique en bibliothèque), comment il s’est élaboré et quels en sont les acteurs et les contraintes. Mais il aborde aussi des modèles différents reposant sur des acquisitions de bouquets et de l’accès en streaming. En effet, PNB n’est ni le seul ni le premier service permettant de mettre à disposition des livres numériques dans les bibliothèques ; fort heureusement, d’ailleurs, car ce qu’il propose  à la fois en termes de contenus et de mode d’accès (le fameux système des « jetons ») n’est pas adaptés aux besoins, par exemple, des bibliothèques universitaires et de leurs usagers étudiants et chercheurs.

En fait, PNB cherche à répondre à une problématique précise : celle du prêt d’ouvrages principalement destinés à une lecture linéaire, nomade et pas nécessairement connectée (par ex. sur liseuse), de type lecture publique. Le dispositif vise donc surtout les ouvrages de librairie courante et notamment la fiction récente, ce qui a nécessité la recherche d’un consensus complexe avec les acteurs dont le modèle économique repose sur la commercialisation de ces ouvrages.

La réception par le public des premières initiatives comme Bibook à Grenoble (étude d’usage en cours de publication) semble démontrer qu’il existe bel et bien un public et des usages pour cette offre ciblée. Toutefois, cela n’oblitère en rien le besoin d’autres modèles pour des usages d’étude ou de recherche, ou tout simplement des pratiques de lecture plus tournées vers la « longue traîne » auxquelles le fonds documentaire actuellement proposé par PNB ne répond pas et qui impliquent pour les bibliothèques des durées d’usage beaucoup plus longues.

Pour en savoir plus sur PNB, je vous conseille de lire les comptes-rendus de l’association CAREL (dernier point en février 2015), et pour plonger dans le débat : le point de vue des bibliothécaires expérimentateurs de PNB sur lettrenumeriques.be et le récapitulatif fouillé publié par le collectif SavoirsCom1.

Le Figoblog nouveau est arrivé

Pour fêter en beauté le nouveau cru 2015, le Figoblog fait peau neuve.

Ça fait du bien (le design du site n’avait pas été rénové depuis 2008) mais surtout, mon très cher administrateur du site et moi-même avons décidé d’aller dans le sens de l’histoire. Nous abandonnons un système basé sur un logiciel open source et une exploitation internalisée (dans notre salon) pour aller vers une plateforme en SAAS (Software as a service).

Cette évolution va certes limiter un peu les fonctionnalités, mais elle permettra au Figoblog de bénéficier régulièrement et sans douleur des améliorations courantes de la plateforme et de son support. Par exemple, je devrais voir disparaître mes problèmes de spam et vous pourrez de nouveau mettre des commentaires (youpi !) Finis les thèmes mitonnés à la main avec notre plus beau Photoshop+CSS, là aussi je rentre dans le rang en adoptant l’un des nombreux thèmes librement disponibles.

Par ailleurs je quitte Drupal pour WordPress, non pas parce que je n’étais plus heureuse avec Drupal (et nous resterons bons amis) mais parce que les fonctionnalités de WordPress sont suffisantes pour mes besoins.

Bon, il y a juste un « léger » « petit » inconvénient : dans l’opération, toutes les URL des anciens billets vont être perdues. Pensez également à rafraîchir vos flux RSS. Je pense que la page 404 va être la plus visitée du site pendant un temps. Ah, les identifiants pérennes…

La TMA expliquée par la plomberie

Ceux qui ont à gérer une prestation de maintenance (tierce maintenance applicative ou TMA) pour leur catalogue ou leur site Web pourraient se reconnaître dans cette aventure qui démontre que de l’informatique à la plomberie, il n’y a qu’un pas. Ce petit mode d’emploi est directement inspiré de faits réels vécus avec mon plombier.

Épisode 1 : la Hotline
– Allô ? Je vous appelle pour signaler une fuite d’eau…
– Bonjour. Vous êtes en contact avec notre répondeur téléphonique. Nos bureaux sont ouverts du lundi au vendredi, de 9h à 12h et de 14h à 17h. Merci de renouveler votre appel.
*clic*

Épisode 2 : la Hotline (suite)
– Allô ? Je vous appelle pour signaler une fuite d’eau…
– Avez-vous vérifié que le robinet était bien fermé ?
– Euh… Oui…
– C’est sûrement les joints. Changez les joints et rappelez-nous.
– Mais je ne crois pas que…
*clic*

Épisode 3 : la qualification de l’incident
– Allô ? Je vous appelle pour signaler une fuite d’eau. C’est pas les joints.
– Et c’est grave ?
– Oh oui, quand même.
– Grave au point d’appeler les pompiers et qu’ils défoncent votre porte si nécessaire ?
– Euh non, quand même pas mais…
– Alors rappelez dans quinze jours.
*clic*

Épisode 4 : la planification de l’intervention
– Allô, bonjour, je suis le plombier de la société XX, mandaté par votre propriétaire pour votre problème de fuite.
– Ah, enfin, super !
– Je peux vous proposer d’intervenir demain entre 13h et 16h.
– Euh mais… c’est que ce n’est pas l’horaire qui m’arrange forcément le plus…
– Je n’ai rien d’autre à vous proposer.
– Ah bon ? Ah. Eh bien d’accord, à demain 13h.
*clic*

Épisode 5 : la planification de l’intervention (suite)
– Allô, voilà, c’est au sujet de la fuite, vous m’aviez dit que vous passeriez entre 13h et 16h mais il est déjà 16h15 et…
– Ah oui, c’est vrai. Désolé, j’ai été retenu chez un autre client.
– Mais j’ai posé congé pour vous attendre, moi ! Vous auriez au moins pu me prévenir.
– Désolé. Je peux passer demain, entre 13h et 16h.
– Eh bien en termes d’horaires ce n’est pas ce qui m’arrange le plus…
– Je n’ai rien d’autre à vous proposer.
Damn it. Très bien, à demain.
*clic*

Épisode 6 : la solution de contournement
– Elle est sérieuse, votre fuite, dites-donc.
– Ben oui, c’est ce que je me tue à vous…
– Du coup, il faut changer toute l’arrivée d’eau. Je ne vais pas pouvoir le faire aujourd’hui, mais rassurez-vous : cela ne fuira plus, vu que j’ai condamné votre évier de cuisine.
– Ah ? Mais ça va être moins pratique… Combien de temps je vais rester comme ça ?
– Eh bien, nous allons vous envoyer un devis.

Épisode 7 : le devis (option 1 : plombier qui va droit au but)
– Alors il y a deux solutions. Soit on refait la tuyauterie de façon apparente. Évidemment ce sera moins joli, mais sinon il faut défoncer les murs, les plafonds, le parquet…
– OK, OK. Va pour la tuyauterie apparente.

Épisode 7bis : le devis (option 2 : plombier doué en marketing)
– Eh bien cela vous fera X000 euros.
– Quoi !? Mon Dieu ! Mais comment est-ce possible, j’ai presque autant intérêt à racheter un autre appartement.
– Eh bien le problème c’est qu’il faut défoncer les murs, les plafonds, le parquet…
– Ce n’est pas possible. There has to be another way.
– Oui : sinon on refait la tuyauterie de façon apparente. Évidemment ce sera moins joli, mais…
– OK, OK. Va pour la tuyauterie apparente.

Il faut rendre justice à mon plombier : en général passée l’étape du devis tout se déroule pour le mieux. Et à la fin on a un évier neuf, c’est chouette quand même. Jusqu’à la prochaine fuite.

Catalogues en ligne et qualité des données

Ce billet est un résumé du rapport d’OCLC : Online Catalogues : what users and librarians want, publié en avril 2009.

Le rapport d’OCLC porte sur la définition de la qualité des données du catalogue (de Worldcat en particulier, même si la plupart des conclusions peuvent être extrapolées), qui n’est pas la même pour les bibliothécaires et les utilisateurs. Ce sont les usages du Web qui obligent à repenser les objectifs et les modes de fonctionnement des catalogues.
Les priorités (en termes de qualité) des bibliothécaires sont le dédoublonnage et l’utilisation (correcte) des autorités. Celles des usagers sont l’accès aux ressources elles-mêmes (pas seulement à leur description : delivery vs. discovery) et la simplicité d’utilisation des outils leur permettant d’être autonomes.
Le rapport s’intéresse aussi aux besoins des bibliothécaires en tant que professionnels (acquéreurs, catalogueurs, etc.) et prend en compte l’accès à Worldcat par Z39.50.
Les méthodes utilisées pour l’enquête incluaient des focus groups, un questionnaire en ligne, et un questionnaire ciblé pour les professionnels.

Les résultats : ce que veulent les usagers

Pour l’usager, l’accès à la ressource (delivery) est aussi important, voire plus important que le fait d’être à même de la trouver (discovery). Donc ce qui compte c’est

  • de disposer de notices enrichies (résumés, tables des matières, etc. mais aussi des critiques, des notes…) surtout pour permettre d’évaluer si ce qu’on a trouvé correspond à ses besoins ;
  • le classement de résultats par pertinence doit être efficace et évident (on doit comprendre immédiatement pourquoi tel résultat sort en premier)
  • il faut faciliter par des liens directs le passage de la « trouvaille » (notice) à l’accès à la ressource (document).

La recherche par mots-clefs est « reine » mais la recherche avancée et les facettes sont essentielles pour s’y retrouver dans la masse. Les facettes permettent d’affiner sa recherche de manière guidée, sans avoir à parcourir d’interminables listes de résultats. Elles sont bien comprises et vite adoptées par les usagers. Toutefois pour que cela fonctionne, il faut que les données soient indexées de manière structurée.

Dans la liste des éléments de données essentiels pour trouver l’information, l’importance des localisations / données locales (par ex. informations sur la disponibilité) est à souligner.
En ce qui concerne les éléments qui permettent de décider si le livre est pertinent (couverture, résumé, critiques), l’usager souhaite en disposer dès la liste de résultats. Mais en ce qui concerne les critiques, les avis sont partagés avec un clivage assez traditionnel entre experts/chercheurs et étudiants/jeunes/amateurs : les premiers ne les jugent utiles que si elles sont « éditoriales » ou professionnelles, les seconds sont prêts à exploiter des critiques rédigées par d’autres usagers.

Du point de vue de la qualité des données, le besoin d’accéder facilement à des ressources en ligne directement à partir des catalogues de bibliothèque demandera probablement une croissance de l’investissement concernant la gestion des métadonnées de liens et l’interopérabilité avec des données externes.

Les résultats : ce que veulent les bibliothécaires

Comme les usagers, les bibliothécaires définissent la qualité en fonction de leurs objectifs : mais ce sont des objectifs professionnels de type renseignement bibliographique ou sélection /acquisition. Ils se retrouvent avec les utilisateurs sur le besoin d’enrichissement pour évaluer les ressources (plutôt des tables des matières et des résumés que des couvertures, sauf pour les bibliothèques publiques). Mais ils sont aussi obsédés par le dédoublonnage.

Pour le reste cela varie beaucoup selon les types de bibliothèques et les zones géographiques. Les bibliothèques spécialisées accordent une importance particulière à l’ajout des tables des matières et aux liens vers des ressources en ligne. Les bibliothèques publiques s’intéressent plutôt à la mise à niveau des notices abrégées.
Même chose pour les fonctions : les besoins varient de manière importante entre un catalogueur, un directeur de bibliothèque, un agent de service public, un acquéreur… En commun à toutes les fonctions on retrouve le dédoublonnage, les tables des matières, et les liens vers des ressources en ligne.
Les catalogueurs ont des demandes particulières visiblement liées à la récupération de notices dans Worldcat : plus de notices pour des ressources non anglophones, correction et amélioration des notices. Les directeurs de bibliothèque attachent plus d’importance à l’enrichissement par des résumés et des couvertures. Les bibliothécaires de services de référence bibliographique accordent de l’importance aux résumés et aux localisations.

Autres résultats intéressants

L’étude est quand même très orientée livres. Il faut attendre la page 47 du rapport pour voir apparaître autre chose que de l’imprimé ! (il y est dit que les bibliothécaires qui travaillent au contact direct du public sont conscients de l’importance, pour les usagers, d’avoir accès à des contenus enrichis et à des formats autres que l’imprimé, notamment audio et vidéo. Faut-il en déduire que tous les autres bibliothécaires ne s’intéressent qu’au livre ?)

Les éléments de données considérés comme importants par les bibliothécaires sont liés à la recherche de documents précis. Par exemple, la présence de l’ISBN est une priorité essentielle pour nombre d’entre eux. Quand on leur demande ce qu’ils amélioreraient dans les données du catalogue si on leur donnait une baguette magique, les bibliothécaires répondent qu’ils mettraient des ISBN partout ;-)

Alors que les exigences des bibliothécaires sont liés à leur conception traditionnelle des données structurées, les utilisateurs en bénéficient (recherche avancée, facettes) mais n’en ont pas conscience – ce qui les conduit à ne pas exprimer que c’est important pour eux. C’est aussi pour cela que les bibliothécaires accordent plus d’importance à la correction des données.

La perception des besoins des usagers par les bibliothécaires montre une prédominance de l’enrichissement (couvertures, tables des matières, résumés). L’accès aux ressources en ligne vient seulement après, alors que c’est le premier choix des usagers, suivi de l’augmentation des accès sujets.

Conclusions

Il y d’importantes différences dans la perception de la qualité du catalogue, entre les usagers et les bibliothécaires. Cette différence est due à des objectifs différents, mais aussi à un écart de compréhension quant au fonctionnement des données structurées.
Le fait que les usagers trouvent utile la recherche avancée suggère que l’investissement dans la structuration fine des données et l’utilisation de formes contrôlées pour les noms et les sujets représentent un vrai bénéfice pour les usagers, y compris dans les catalogues de demain.

En ce qui concerne les bibliothécaires, leurs différentes fonctions affectent leurs priorités concernant la qualité des données. Les catalogueurs et les acquéreurs valorisent la structure formelle du catalogue, par exemple les index par champs et les autorités, et reconnaissent son importance.

Noter qu’entre l’ouvrage de Charles Cutter Rules for a Dictionary Catalog et les RDA, les principes d’organisation de l’information sont toujours les mêmes. Mais il n’est pas clair que ces principes ont vraiment été testés au regard des attentes des usagers.
Sur le Web, les principaux acteurs ont adopté une démarche à l’opposé : on ne conceptualise que très peu, on procède par essai-erreur. C’est ce qui a permis le développement des principes de « user-centered design ».
Ce qu’il faut maintenant, c’est intégrer le meilleur des deux mondes, étendre la définition de ce que nous entendons par « qualité » dans les catalogues en ligne, et déterminer qui en est responsable. Pour cela, il faudra :

  • augmenter les liens vers des ressources en ligne ou au moins des extraits
  • enrichir l’information sur le contenu (« subject information ») mais pas en utilisant l’indexation matière traditionnelle
  • prendre la mesure du rôle critique des identifiants (ISBN, et autres).

Recommandations pour ceux qui définissent les besoins des futurs catalogues (oui, je me sens un peu visée là, pas vous ?) :

  • analyser, comparer et rééquilibrer l’investissement de la bibliothèque dans les tâches de catalogage, de fourniture de liens et d’enrichissement de notices
  • explorer, avec des partenaires (bibliothèques ou autres) les différents moyens d’obtenir des enrichissements (par ex. des API -> détour chez Karl)
  • encourager la R&D pour améliorer le classement de pertinence
  • accorder plus d’importance aux fonctions d’accès aux ressources
  • automatiser la création des métadonnées et limiter la redondance des tâches, au niveau des réseaux de bibliothèques, et avec d’autres partenaires.

Le côté obscur de la force ?

La politique d’OCLC est assez décriée en ce moment, notamment autour de leur volonté de revoir les conditions d’utilisation des notices de Worldcat.

Noter qu’une première version de cette politique avait été diffusée, suscitant des réactions assez vives. Etait en particulier incriminée la politique du « champ 996 », un champ ajouté aux notices récupérées de Worldcat dans lequel on mentionne la provenance de la notice et un lien vers la OCLC policy.

Le jour même, après la polémique ci-dessus, OCLC retire son texte pour le retravailler. Quelques jours plus tard, il en publie une nouvelle version. On peut comparer les deux versions ici.
A noter :

  • une clarification (simplification, peut-être un peu radicale) des types de partenaires
  • le retrait de certaines phrases qui donnaient un aspect « fermé » à la politique (sans pour autant que cela change le fond des différentes clauses, à mon avis).

On voit bien qu’ils ont essayé de retirer tout ce qui pouvait avoir l’air provocant. Ce qui apparaissait comme des obligations devient des incitations (par ex. ne pas retirer la mention d’origine des notices).

OCLC utilise ensuite son blog pour entrer dans le débat et expliquer sa politique :

  • la politique actuelle date des années 80 et a besoin d’être révisée dans le contexte du Web
  • la mention de provenance avec le lien vers la politique n’est pas dans un esprit de « propriété », mais de « source »
  • OCLC s’est inspiré de la Creative Commons pour l’aspect commercial / non commercial
  • l’objectif de la politique est de protéger la communauté contre des usages commerciaux concurrentiels qui pourraient la détruire.

Ce qui n’empêche pas la polémique de continuer, comme on peut le voir sur cette liste de tous les billets de blog qui abordent ce sujet… Et il y en a qui s’amusent bien :

OCLC a affiché sa volonté de discuter avec la communauté en organisant une rencontre le 16 janvier, et en repoussant la mise en oeuvre de la nouvelle politique de plusieurs mois. Pour autant, ils se font épingler jusque dans la presse avec cet article du Guardian qui prétend expliquer « pourquoi vous ne trouvez pas de livres de bibliothèques dans votre moteur de recherche » par les visées protectionnistes d’OCLC, opposées à OpenLibrary et aux travaux de Talis, et même à la publication du catalogue Libris dans le Linked Data et aux travaux d’Ed Summers.

Ce dernier complète (et dépasse) l’analyse du Guardian dans un billet remarquablement complet et pertinent qui évoque la problématique du référencement et le fichier « robots.txt » de Worldcat.

Ça doit être la mode d’analyser les fichiers d’exclusion de robots aux Etats-Unis, hier c’était celui de la Maison Blanche, passé de 2400 lignes à d’exclusion à une seule… le 20 janvier 2009.

Quelques minutes plus tard : tiens, je viens d’apprendre que OCLC va absorber OAIster. Vous avez dit monopole ?

A l’Est, du nouveau

La dernière lettre de la section Information Technology de l’IFLA contient deux articles intéressants.

Le premier relate l’expérience de la bibliothèque universitaire de Vilnius pour mettre en place des services 2.0. Ce que je trouve intéressant dans cet article c’est qu’il ne présente pas le versant technologique de la chose (dont on a soupé, franchement : des articles qui expliquent encore ce que sont les blogs et les wikis !). Il se positionne du point de vue de ce qui pose vraiment problème dans la mise en place d’un projet de bibliothèque 2.0 : la mobilisation des agents et l’accompagnement au changement. Ainsi, avant de mettre en place des services 2.0 dans la bibliothèque, ils ont sondé les personnels (et l’encadrement en particulier) sur leur niveau de compétences technologiques puis ont organisé un plan de formation approprié.
L’initiative a débouché sur un blog interne, un blog des guides touristiques de la bibliothèque, un compte delicious, et un wiki pour le personnel qui permet d’avoir toutes les informations sur le plan de formation en question.

Le second décrit l’initiative PIONER qui a permis à des bibliothèques numériques polonaises de créer une Fédération qui bénéficie de son portail. Un framework en open source, dLibra, a été développé pour être mis à disposition des bibliothèques locales pour mettre en ligne leurs fonds. Ensuite l’ensemble est fédéré via OAI-PMH.

Pour le contexte : la section IT de l’IFLA est là où se discutent les enjeux des évolutions technologiques pour les bibliothèques. On y parle beaucoup de « library 2.0 » en ce moment forcément, mais pas seulement : cet été à Montréal elle co-organisait avec la section Préservation et l’ICABS (qui s’occupe de normes bibliographiques) une conférence sur la préservation numérique pour laquelle avec plusieurs collègues nous avions écrit cet article (traduction française). L’été prochain, il y aura une pré-conférence satellite à Florence sur le thème « Emerging trends in technology: libraries between Web 2.0, semantic web and search technology »… et j’espère bien y aller !

LC+FlickR : bilan d’une expérience 2.0

Vous vous souvenez, il y a quelques mois, la Library of Congress ouvrait un site sur Flickr pour permettre aux usagers de tagguer et commenter un fonds de 3000 photographies.

Quelques mois plus tard, l’équipe responsable du projet a (un peu discrètement) communiqué sur les résultats de l’expérience. On peut lire ce billet sur le blog Hanging Together de RLG, et sur Digitization 101 deux comptes-rendus de la conférence CIL 2008 : et .

Quelques idées intéressantes qu’on peut en retenir :
– le fait de positionner la contribution sur Flickr plutôt que sur le site de la bibliothèque permet de s’abstraire des questions déontologiques (inexactitudes, qualité des contributions…)
– ensuite, la LC a mis en place une démarche permettant de réinsérer dans leur propre catalogue les contributions les plus intéressantes : une activité chronophage…
– il ne faut pas non plus noyer les utilisateurs dans la masse : pour ne pas décourager les contributions, la LC n’ajoutait que 50 images par semaine, atteignant ainsi le taux de contribution optimal pour l’ensemble. Ceci dit à ce rythme là il faudrait 20 ans pour tout mettre sur Flickr…

Quelques chiffres : en 3 mois
– 100 notices du catalogue ont été enrichies à partir d’informations collectées sur Flickr (c’est pas beaucoup, non ?)
– la LC s’est fait 11000 « amis » dans Flickr
– 55000 tags ont été ajoutés (10 000 tags différents).

Visiblement, l’expérience a vraiment réussi à susciter une communauté, et pour cela le fait d’être sur Flickr n’a sans doute pas été indifférent (on pourrait se demander si il y aurait eu autant d' »amis » sur un site hébergé par la LC). La communauté a produit un résultat utile, certaines descriptions ou tags relevant de l’analyse voire de l’investigation, et d’autres de la description plus fine que ce qui était fourni par la LC au départ : dans les deux cas, à un niveau de détail qui n’aurait pas pu être atteint sans le recours à la communauté d’utilisateurs.

Des FIGs dans Facebook

Vraiment, Gerry Mc Kiernan ne pouvait me faire plus plaisir en appelant son nouveau groupe dans Facebook « Facebook Information Group » (FIG). C’est un groupe qui a pour vocation de discuter le remplacement des listes de discussion traditionnelles par des groupes Facebook.

En fait, pas bête : quel meilleur outil que Facebook pour gérer des communautés. On pourrait développer une petite application Facebook reliée avec le système de réservation de places pour savoir où sont ses amis dans la bibliothèque…

PS : vous avez remarqué, j’ai écrit Facebook normalement, c’est plus moi qui paye la bande passante ;-)