L’évolution du modèle d’agrégation de données dans les bibliothèques numériques

J’ai rassemblé dans ce billet quelques réflexions et observations qui m’ont été inspirées notamment par mes travaux au sein d’Europeana ces derniers mois. Tout est parti du sentiment diffus que l’agrégation telle qu’on la connaît actuellement est en train d’évoluer, même s’il est difficile de savoir vers quoi, car je n’ai pas lu de théorie très construite sur le sujet. Donc à défaut de l’avoir trouvée résumée ailleurs, je la propose ici aujourd’hui.

A l’origine…

Vers le milieu des années 2000, lorsque les bibliothèques numériques comme Gallica ou Europeana ont commencé à avoir l’ambition d’atteindre une masse critique, elles ont défini un modèle d’agrégation de données, c’est à dire une méthode permettant de rassembler dans une interface unique des données issues de plusieurs institutions. Ce modèle d’agrégation était essentiellement basé sur le protocole OAI-PMH, inspiré notamment par ce qui se passait dans la communauté des archives ouvertes.

Les principes de ce modèle sont relativement simples :

* du point de vue technique, le protocole OAI-PMH offre un cadre transverse aux professions de la documentation, du patrimoine et de l’information scientifique et technique. Conforme aux standards du web, il repose sur des normes simples à implémenter et des logiciels open source à peine plus complexes qu’une bête plateforme LAMP, à la portée de n’importe quel webmestre sachant un peu ce qu’il fait.
* du point de vue des métadonnées, le format Dublin Core dit « simple » avec ses 15 éléments facultatifs et répétables sert de dénominateur commun pour la convergence syntaxique (avoir des métadonnées qui « entrent dans le même moule » pour prendre une métaphore culinaire – mais la forme du moule ne garantit pas qu’on utilise la même recette pour la pâte à gâteau). Le fait de pouvoir y adjoindre n’importe quel format plus complexe du moment qu’il peut être exprimé en XML semblait au départ une consolation suffisante pour des usages plus avancés. On se repose enfin sur l’asynchronisme du système (moissonnage des métadonnées qui sont ensuite stockées dans un nouvel entrepôt pour construire des services) et sur des technologies de type moteur de recherche plein texte à facettes pour fournir le service d’accès.

* enfin du point de vue des contenus, des arguments politiques et institutionnels plaidaient en faveur d’une consultation des documents numérisés sur le site propre de chaque institution, ce qui lui permettait de préserver son image (sa « marque ») et son audience, généralement l’unique indicateur de succès d’un service de bibliothèque numérique.

Ce modèle d’agrégation a servi de base à la construction de la première version du portail Europeana, qui avait défini à cette fin le modèle ESE (Europeana Semantic Elements), une sorte de DC simple augmenté de quelques éléments de provenance. La simplicité technique du modèle a permis une implémentation rapide débouchant sur le moissonnage des métadonnées décrivant des millions d’objets culturels en seulement quelques mois : un « quick win », en quelque sorte. Dans ce modèle, l’interopérabilité sémantique (la fameuse recette de pâte à gâteau mentionnée plus haut) était assurée par des tiers appelés « agrégateurs », chargés pour un domaine national ou thématique de veiller à l’homogénéité des données grâce à des bonnes pratiques ou des traitements.

Ce que le web de données a changé au modèle d’agrégation

Cependant, quasiment à l’époque où ce modèle se mettait en place à grande échelle, on voyait déjà un autre modèle d’agrégation pointer le bout de son nez : le Linked Open Data (web de données en bon français).

Cela n’avait pas échappé aux concepteurs d’Europeana qui rêvaient de créer autre chose qu’un énième portail de métadonnées comme il en existait déjà beaucoup. Dans une démarche de long terme, le modèle de métadonnées EDM (Europeana Data Model) a été imaginé pour prendre la suite d’ESE en décuplant ses capacités. On pensait alors que l’interopérabilité par les liens, inhérente au web de données, était appelée à remplacer à terme l’agrégation par moissonnage.

Mais ce n’était pas si simple…

* du point de vue technique, le web de données apparaît comme la nouvelle génération qui a tout pour succéder à l’OAI-PMH : encore plus intégrée à l’architecture du web, elle transcende les frontières des métiers et des domaines et s’affranchit en théorie de toute les problématiques liées au stockage des données (car dans l’architecture du web, l’endroit où les données sont stockées est rendu abstrait par l’utilisation des URI et de l’hypertexte). Cependant, en pratique, la construction de nouveaux services à partir de ces données continue à nécessiter une forme de moissonnage ; or on ne dispose pas dans le web de données des mécanismes très pratiques fournis par l’OAI-PMH à cette fin (horodatage des données permettant de ne récupérer que les mises à jour, suivi des enregistrements détruits par ex.). Au final tout ce nouvel environnement technique faisait appel à des compétences qui n’allaient pas de soi pour les informaticiens, ce qui a pu freiner les réutilisations et l’agrégation de données utilisant ces principes au-delà de prototypes ponctuels.
* du point de vue des données, le modèle RDF présente l’avantage d’autoriser la description de de ressources non documentaires, les « entités » qui interagissent avec les documents : personnes et autres agents, sujets, lieux, périodes temporelles… Le web de données a contribué à réhabiliter ce qu’on appelait en bibliothèque les « données d’autorité », réaffirmant leur utilité voire leur caractère essentiel pour permettre l’interopérabilité non plus syntaxique mais sémantique (la pâte à gâteau, pas la forme du moule) des données. Le mythe du moteur de recherche magique qui serait capable, par des traitements automatiques, de compenser l’absence de tels référentiels s’est effondré quand on a constaté que les moteurs fonctionnaient quand même beaucoup mieux quand on y ingérait des données plus riches. L’inconvénient de ces modèles réside toutefois dans leur complexité, qui a pu dans certains cas freiner leur adoption, notamment en l’absence de compétences informatiques adéquates. Par ailleurs, la modélisation des vocabulaires ou ontologies destinés à représenter toute la richesse de l’information des institutions patrimoniales et scientifiques est une gageure qui résiste à toute tentative d’unification ou de consensus ; c’est d’ailleurs bien l’esprit du web de données, qui autorise la coexistence ou la cohabitation de plusieurs modèles reliés entre eux.

* du point de vue des contenus : RAS, ils ne sont pas vraiment concernés par cette phase et restent accessibles suivant des modalités plus ou moins similaires au modèle d’agrégation précédent.

Côté Europeana on peut mentionner, outre la mise en œuvre d’EDM au sein d’un nombre croissant de projets thématiques, la création d’un entrepôt en Linked Open Data permettant la redistribution des données en RDF et en SPARQL. Le portail lui-même a migré sous EDM en 2013 mais sa dernière version baptisée « Europeana Collections » ne tire pas encore tout le parti de la richesse du modèle.
A la BnF, data.bnf.fr est né mais reste un petit frère de Gallica se contentant de liens avec son aîné dont il ne bouleverse pas l’existence. Bref, on peut parler d’une phase « d’éveil » qui conduit à examiner sous un jour nouveau les possibles et à faire ressentir le besoin d’un vrai nouveau modèle d’agrégation, dépassant les limites de l’OAI-PMH et tirant les enseignements du web de données.

Vers un modèle de mutualisation

Dans un contexte de moyens contraints mais aussi d’évolution de la technologie et des usages, un nouveau modèle commence aujourd’hui à émerger, basé sur le principe de la mutualisation des investissements et notamment des infrastructures.
* du point de vue technique, ils s’agit de mutualiser les infrastructures du point de vue du stockage des données ou encore des traitements (conversions, diffusion…) Les données passent dans les mêmes tuyaux et les mêmes moulinettes, ce qui représente une économie à la fois en ressources machines et en développement d’outils. Des modèles de type cloud permettent d’effectuer cette mutualisation dans des espaces physiquement communs mais logiquement indépendants (façon moule à madeleines). Il n’y a donc pas forcément agrégation à ce stade, mais elle sera évidemment facilitée par la suite.
* du point de vue des données, l’ambition est de dépasser les contraintes liées à l’adoption d’un modèle ou format commun. On attend des outils nouveaux qu’ils soient suffisamment flexibles pour s’adapter à tous types de formats et qu’ils supportent facilement les conversions de l’un à l’autre : c’est la leçon tirée des étapes précédentes, qui ont démontré qu’il était toujours préférable de travailler les données dans leur format source, qu’aucun format « commun » même riche ne peut remplacer. Le web de données reste un modèle d’interopérabilité prometteur grâce aux URI, aux liens entre les ressources et à la sérialisation JSON-LD, beaucoup plus simple que les syntaxes précédemment utilisées pour exprimer le RDF. Des vocabulaires comme Schema.org visent à permettre de faire du web sémantique comme Monsieur Jourdain faisait de la prose.

* du point de vue des contenus : on commence dans la sphère culturelle à dépasser le paradigme qui voulait que les contenus, pour des raisons politiques, ne soient consultables que sur le site d’origine, position devenue intenable (si elle l’a jamais été) du point de vue des usages. Que ce soit par copie des fichiers ou via des API comme IIIF, qui fournit un mécanisme pour appeler de manière distante des images numérisées avec leurs métadonnées en JSON-LD, la tendance est à l’agrégation des contenus eux-mêmes dans l’interface commune, ce qui permet de mutualiser également les outils complexes que sont les visualiseurs de documents.

Gallica et Europeana, pour continuer sur ces deux exemples, ont toutes deux entamé une mutation progressive vers ce nouveau modèle. Du côté de Gallica, cela se concrétise par l’intégration de documents de partenaires qui n’avaient pas encore trouvé leur outil de diffusion et par la réalisation de bibliothèques numériques en « marque blanche », Numistral et la Grande Collecte. Côté Europeana, le nouveau portail Collections utilise IIIF pour présenter directement sur son site les médias numérisés, avec zoom en haute résolution et feuilletage le cas échéant.

Derrière cette modification en apparence ponctuelle, c’est en fait une refonte complète du modèle d’agrégation qui se profile du côté d’Europeana. Après avoir défini un cadre de publication (Europeana Publishing Framework) et, en partenariat avec DPLA, un cadre juridique, Europeana s’interroge actuellement via le forum des agrégateurs sur le rôle et la fonction de ces derniers. Le projet Europeana Cloud, qui s’est déroulé de 2013 à 2016, permet d’imaginer un avenir où de nombreuses fonctions de stockage et de traitement de données seront mutualisées dans une infrastructure commune, ce qui évitera aux agrégateurs de faire face aux mêmes problèmes en développant chacun des solutions différentes.

Le rôle des agrégateurs évoluerait alors vers une fonction de centre d’expertise au service d’acteurs plus modestes ou disséminés, qui les accompagnerait dans l’agrégation de leurs données directement dans l’infrastructure cible. On pourrait imaginer la centralisation de traitements coûteux et complexes à mettre en œuvre comme les alignements de référentiels ou les enrichissements automatiques de métadonnées. L’utilisation de mécanismes comme IIIF présente l’avantage de conserver la lisibilité des flux d’audience (on comptabilise tout de même des « hits » sur le site fournisseur) tout en favorisant des usages plus fluides. C’est la promesse de pouvoir non seulement centraliser dans les portails la visualisation des contenus, mais aussi constituer plus facilement des bibliothèques numériques de niche, agrégeant et éditorialisant des contenus sélectionnés à un niveau local.

En conclusion : aujourd’hui, demain ou après-demain ?

Sans vouloir avoir l’air de lire dans les entrailles de maquereau, ce que j’ai pu observer ces derniers mois me donne à penser que le nouveau modèle d’agrégation n’est pas encore tout à fait mûr et ne le sera pas avant au moins 3 à 5 ans. Il ne dit pas encore son nom et ressemble aujourd’hui à un patchwork d’initiatives en ordre dispersé dont il est assez difficile de voir le motif global, à moins de prendre beaucoup de recul, ce que j’ai essayé de faire ici. Certains aspects techniques relèvent encore de la promesse et demandent à démontrer leur faisabilité. On pourrait également avoir des surprises et voir de nouveaux dispositifs émerger. Cependant, je suis convaincue que l’on tendra inévitablement vers ce nouveau modèle qui s’installera d’abord en parallèle du modèle OAI-PMH, toujours efficace, et du web de données qui continue à se développer.
A suivre, rendez-vous dans 3 ans ?
En attendant, je me permets de vous solliciter, vous qui avez eu le courage de lire ce long billet jusqu’au bout :
– si vous avez encore le temps de faire de la veille et si vous connaissez d’autres exemples de modèles d’agrégation qui évoluent dans le même sens ou dans un sens différent,
– si vous en savez plus que moi sur les aspects techniques et que cela vous inspire des suggestions ou des réfutations,
– si vous agrégez des données et que ces perspectives vous parlent,
exprimez-vous dans les commentaires ci-dessous, vous aurez ma gratitude éternelle.

#EuropeanaElects : ma campagne sur Twitter

europeana-test

Europeana, je la connais depuis sa plus tendre enfance. En fait, elle n’était même pas encore née qu’on était dans une salle de réunion à Luxembourg, avec quelques collègues dont certains sont depuis devenus des amis, et on parlait d’interopérabilité comme on lance une balle à la passe-à-dix, priant pour qu’elle ne retombe jamais.

Puis il y a eu cette époque où on rêvait qu’Europeana ne soit pas encore un énième portail, où devant une bière sur une place ensoleillée de La Haye on griffonnait sur un bout de papier notre idée du réseau d’informations sémantiques, œuvres, personnes, événements… qui donnerait du sens à l’information culturelle diffusée sur le web. C’est comme ça qu’on s’est lancés dans la création du Europeana Data Model, EDM de son petit nom.

Puis il y a eu l’ère des projets, avec leur cortège de « proposal submissions », « work packages », « deliverables », « prototypes » etc. Ils sont bientôt devenus tellement nombreux que même les organiser et comprendre comment ils s’articulaient les uns avec les autres était devenu un défi. Pendant ce temps, le portail, lui, s’enrichissait de nouvelles fonctionnalités, s’ouvrait à des expositions virtuelles, agrégeait toujours plus de données provenant de toujours plus d’institutions dans toute l’Europe.

Où en est-on aujourd’hui ? Une nouvelle version du portail est en train de voir le jour. Même si on est encore loin de notre rêve initial, les progrès sont énormes. Et surtout, ce qui me paraît beaucoup plus important, le portail n’est que la partie émergée de l’iceberg.

Pour moi, la grande réussite d’Europeana, ce n’est pas d’avoir agrégé toutes ces données (même si je ne dis pas que c’était facile) mais d’avoir fourni une énorme impulsion dans la communauté culturelle en Europe pour permettre la numérisation du patrimoine. Des pays ou des institutions qui n’en auraient jamais fait un axe prioritaire se sont organisés pour obtenir des financements et lancer des projets. Ceux qui s’étaient déjà lancés ont apporté leurs collections mais aussi leur savoir-faire et leur expertise. Cet effort a été transverse (archives, bibliothèques, musées, audiovisuel) et a facilité l’émergence d’une préoccupation pour l’interopérabilité des collections même quand celles-ci sont constituées d’objets par définition uniques. Enfin Europeana a été un ardent promoteur de l’open data.EUfinal01-Cloud-V8-1024x768

La stratégie d’Europeana a évolué pour aller vers une infrastructure numérique partagée dont l’objectif est de servir aussi bien la communauté des professionnels des institutions européennes que celle des usagers. Les données ont été ouvertes en Linked Open Data, et leur redistribution via des dispositifs d’API pour encourager des réutilisations diverses et variées est considéré comme aussi importante, voire davantage, que le portail lui-même. L’ambition est également de partager des outils de traitements de données, d’enrichissement, de transformation et de préservation qui permettront aux institutions qui n’ont pas les moyens de les construire d’en bénéficier et d’enrichir leurs données et leurs services.

Enfin, Europeana est devenu un réseau, une communauté. Cette communauté partage son expertise professionnelle, technique et scientifique mais aussi sa motivation et son implication pour rendre accessible la culture européenne au plus grand nombre grâce au numérique. Construire et animer une communauté est une tâche ardue et parfois ingrate, mais c’est aussi ce qui permet aux idées de naître, de murir, de circuler et finalement de déboucher sur des projets et des réalisations qui peuvent transformer davantage que nos métiers et nos communautés. Transformer le monde par la culture, c’est l’ambition d’Europeana.

EUfinal07-Impact-V9Il ne faut pas oublier qu’Europeana est née d’une idée politique : elle a encore les moyens, grâce aux énergies qu’elle fédère, de peser en faveur des politiques culturelles des États de l’Europe et d’aider à mobiliser des moyens pour continuer à les développer. C’est parce que je crois sincèrement que sans Europeana, nous ne serions pas où nous en sommes aujourd’hui en matière de développement de l’accès numérique à la culture, qu’il était important pour moi de faire partie de l’association et de candidater pour devenir membre du conseil. On m’a invitée à faire campagne pour les élections qui se dérouleront en ligne du 3 au 9 novembre : c’est l’occasion pour moi de (re)poster sur Twitter quelques liens et idées sur Europeana. A suivre sur #EuropeanaElect.

Le droit de ReLIRE

Je travaille dans l’édition.

Je sais, c’est curieux, certains d’entre vous se demandent s’ils n’auraient pas loupé le dernier rebondissement de ma vie professionnelle ; je vous rassure, au départ c’est juste une bizarrerie d’organigramme : au Centre Pompidou, le service qui s’occupe du site web est rattaché à la direction des éditions. Au départ, on coexistait un peu, les éditions et moi. Et puis petit à petit, à force de m’intéresser, de monter des projets ensemble, d’assister aux réunions de service, de plancher sur le budget, j’ai fini par avoir l’impression de faire quand même partie de la famille. Une famille proche, finalement, plus que le musée, d’une certaine manière.

C’est peut-être à cause de cela que je n’arrive pas à voir le projet du jour, le ReLIRE de la BnF, d’un mauvais œil. Je vous le décris juste en trois mots, la littérature sur ce sujet sur le Web est pléthorique, les points de vue contradictoires ne manquent pas.
L’objectif est de remettre dans le circuit de la commercialisation des ouvrages avant 2001, devenus indisponibles, mais qui sont encore couverts par les droits d’auteur. En général les droits d’auteur ont été cédés à un éditeur, mais il est d’usage, si celui-ci n’exploite plus l’ouvrage, que les droits soient rétrocédés à l’auteur. C’est dans la loi et en général c’est aussi précisé dans le contrat d’édition si celui-ci est bien fait. Et de toute façon, les contrats d’édition de cette époque prévoyaient rarement l’exploitation numérique (nous on a commencé en 2010).
Partant de ce principe, l’idée est de numériser en masse ces (nombreux) ouvrages indisponibles, afin de pouvoir les réinjecter dans le circuit de distribution sous une forme numérique. Tâche confiée à la BnF parce que d’une part, elle a un savoir-faire dans le domaine de la numérisation de masse, et d’autre part… les livres sont là, sur place, dans ses magasins.
ReLIRE propose un premier recensement de 60 000 œuvres, qui sera augmenté chaque année jusqu’à atteindre les 500 000 estimées. Les auteurs peuvent dans les 6 mois s’opposer à l’inclusion de leur(s) titre(s) dans le registre. Les éditeurs le peuvent également, à condition qu’ils s’engagent à réexploiter l’ouvrage sous format papier ou numérique (ou s’ils le font déjà). En l’absence d’opposition, les livres seront numérisés et confiés à une société de gestion collective chargée d’exploiter commercialement ce fonds et de rémunérer les ayants-droit.

Je ne suis pas juriste, ni expert du droit d’auteur, je ne peux donner sur ce projet qu’un ressenti personnel à la hauteur de mon expérience et de ma pratique personnelles. Mais vu de chez moi, le déchaînement d’indignation suscité par ReLIRE est assez incompréhensible.

Quand on connaît la situation de l’édition aujourd’hui et son mode de fonctionnement, il faut vraiment faire preuve d’une immense naïveté (ou mauvaise foi) pour penser que ces livres devenus indisponibles depuis plus de 10 ans et qui le sont restés depuis ont la moindre chance d’être réédités en dehors de ce dispositif. La durée d’exploitation d’un titre est actuellement de quelques mois à peine, sa présence en librairie de quelques semaines. Les éditeurs tirent les exemplaires au plus juste pour éviter les stocks, tout ce qui n’est pas écoulé dans ce délai de quelques mois est pilonné. La probabilité de voir les distributeurs et les libraires accepter de remettre en place un titre qui n’est pas neuf est quasi nulle, si bien qu’un éditeur préfèrera toujours publier quelque chose de nouveau qu’il pourra marketer comme tel que de ressortir des textes des tiroirs, même s’ils sont bons. Même les distributeurs numériques effectuent une sélection dans ce qu’ils diffusent, ils ne font pas de numérisation de masse et ne vont certainement pas rechercher les titres d’il y a dix ans quand le marché les inonde de plus de 60 000 monographies par an. Les auteurs qui ont la chance d’être constamment réédités et vendus sont peu nombreux, mais en passant, ce ne sont pas eux qui sont concernés par le dispositif ReLIRE.

Alors évidemment, constituer comme on peut un registre de 60 000 titres et demander aux auteurs de faire de l’opt-out ce n’est peut-être pas le système idéal, mais quoi d’autre ? Négocier individuellement avec chacun ses droits numériques ? Ce serait une tâche dantesque, j’en sais quelque chose moi qui ai la charge de le faire pour les quelque 6000 artistes dont les œuvres sont conservées au Centre Pompidou. Et dans quel but ? Quand je pense que mes quelques Œuvres Papier commises (en tant qu’auteur) pour le Cercle de la Librairie m’ont rapporté chacune à peine une centaine d’euros, sur plusieurs années (et elles ne sont pas indisponibles !!) je doute que ces auteurs dont les œuvres étaient oubliées ne fassent fortune. Au moins, la mise en place d’une gestion collective et d’une commercialisation leur permettra de toucher quelque chose. S’ils trouvent cela ridicule, libre à eux de se retirer du dispositif et de mettre leurs œuvres en ligne gratuitement (à condition qu’ils aient récupéré leurs droits auprès de leur éditeur, of course… un autre parcours du combattant, malgré tout, dans lequel seuls les plus tenaces s’engageront).
On peut aussi critiquer le système de l’opt-out et se dire que la base de données proposée par la BnF devrait être parfaite du premier coup et intégrer toutes les informations qui n’existent pas, comme le registre centralisé de toutes les éditions numériques déjà existantes, FRBRisé s’il-vous-plaît pour qu’on puisse savoir de quelle édition papier la version numérique est dérivée. Ceux qui ont déjà géré une base de données bibliographique de 60 000 références savent qu’il n’y a rien là d’anodin (et je tire mon chapeau au passage aux collègues de la BnF pour le travail réalisé en un temps record, moi qui ai toujours claironné que faire aboutir un projet en moins de 2 ans dans cet établissement était impossible.)
On pourrait objecter que le délai d’opposition, 6 mois, est bien court. Je fais cent pour cent confiance aux auteurs et à leurs ayants-droit pour aller vérifier le registre dans les 6 mois. Ces gens-là sont soucieux de ce qu’il advient de leur production. S’ils ne le sont pas, alors on peut penser qu’ils n’auraient jamais fait la moindre démarche pour que leurs bouquins redeviennent disponibles, c’est donc heureux que quelqu’un le fasse à leur place.

On ne peut pas à la fois critiquer la loi sur le droit d’auteur dans le fait qu’elle est inadaptée au monde numérique, et en même temps tirer à boulets rouges sur la première initiative visant à essayer de trouver des solutions intermédiaires. Évidemment, le monde serait plus beau et les licornes pataugeraient au pied de cascades de guimauve si tous les auteurs, même les plus obscurs, pouvaient voir leur prose toujours accessible, sans que cela ne nécessite de construire un modèle économique pour que quelqu’un (les éditeurs par exemple) assument les coûts associés, et qu’en plus tout le monde puisse en vivre grassement. Mais il faut être un peu réaliste. Le dispositif proposé présente au moins l’avantage d’offrir une seconde vie à des ouvrages qui n’en auraient jamais eu.

NB : « le droit de relire », l’un des droits fondamentaux du lecteur selon Daniel Pennac, Comme un roman, 1992.

La bibliothèque numérique dont j’ai rêvé

Ayant été hors jeu pendant plusieurs mois en 2008, c’est avec d’autant plus de confort que je m’accorde, pour une fois, un petit message publicitaire sur Gallica 2 et Europeana.

La nouvelle version de Gallica 2, mise en ligne à la mi-janvier, comporte plein de fonctionnalités que j’appelais de mes voeux depuis longtemps, comme des fils RSS paramétrables en fonction d’une recherche, un widget :

Vieux Paris [lithographie par J. Jacottet], Musée Carnavalet : [photographie de presse] / [Agence Rol]
Vieux Paris [lithographie par J. Jacottet], Musée Carnavalet : [photographie de presse] / [Agence Rol]

Mais on peut aussi consulter des documents sonores, et même écouter en synthèse vocale les livres dont la qualité d’OCR est suffisante (supérieure à 95%) par exemple on a bien ri en écoutant certains passages de celui-là.

Europeana, je ne rentrerai pas dans les détails, mais il faut entrer dans le Thought labs où se font les premières expérimentations avec Web sémantique inside
Les mésaventures d’Europeana à son lancement (et je le rappelle, même s’il y a 2 millions d’objets dedans, ce n’est qu’un prototype) me semblent montrer à quel point les nouvelles interfaces de bibliothèque numérique, et quelque chose d’aussi simple que la mise en valeur de vignettes, représentent un enjeu pour la visibilité des contenus culturels, au niveau national et au niveau européen.

Donc, un grand bravo, un grand merci à tous ceux qui ont dépensé une énergie conséquente sur ces projets durant ces dernières années. Il nous reste deux petites semaines pour dire adieu à l’ancienne version de Gallica. On sait qu’il y aurait encore beaucoup à faire, mais on a fait du chemin.

A l’Est, du nouveau

La dernière lettre de la section Information Technology de l’IFLA contient deux articles intéressants.

Le premier relate l’expérience de la bibliothèque universitaire de Vilnius pour mettre en place des services 2.0. Ce que je trouve intéressant dans cet article c’est qu’il ne présente pas le versant technologique de la chose (dont on a soupé, franchement : des articles qui expliquent encore ce que sont les blogs et les wikis !). Il se positionne du point de vue de ce qui pose vraiment problème dans la mise en place d’un projet de bibliothèque 2.0 : la mobilisation des agents et l’accompagnement au changement. Ainsi, avant de mettre en place des services 2.0 dans la bibliothèque, ils ont sondé les personnels (et l’encadrement en particulier) sur leur niveau de compétences technologiques puis ont organisé un plan de formation approprié.
L’initiative a débouché sur un blog interne, un blog des guides touristiques de la bibliothèque, un compte delicious, et un wiki pour le personnel qui permet d’avoir toutes les informations sur le plan de formation en question.

Le second décrit l’initiative PIONER qui a permis à des bibliothèques numériques polonaises de créer une Fédération qui bénéficie de son portail. Un framework en open source, dLibra, a été développé pour être mis à disposition des bibliothèques locales pour mettre en ligne leurs fonds. Ensuite l’ensemble est fédéré via OAI-PMH.

Pour le contexte : la section IT de l’IFLA est là où se discutent les enjeux des évolutions technologiques pour les bibliothèques. On y parle beaucoup de « library 2.0 » en ce moment forcément, mais pas seulement : cet été à Montréal elle co-organisait avec la section Préservation et l’ICABS (qui s’occupe de normes bibliographiques) une conférence sur la préservation numérique pour laquelle avec plusieurs collègues nous avions écrit cet article (traduction française). L’été prochain, il y aura une pré-conférence satellite à Florence sur le thème « Emerging trends in technology: libraries between Web 2.0, semantic web and search technology »… et j’espère bien y aller !

Nous ne numériserons plus ensemble…

Vendredi, Microsoft a annoncé sa décision d’arrêter ses programmes de numérisation et la fermeture des plateformes Live Search Books et Live Search Academic.

Cette décision a été pas mal commentée : même en français ici.

On peut s’inquiéter pour ce qu’il va advenir d’un programme comme Open Content Alliance, qui s’appuyait sur les financements de Microsoft entre autres : mais Internet Archive a de la ressource, je pense qu’ils vont s’en sortir (d’ailleurs ils ont l’air assez confiants si on lit ça). Finalement cette décision est présentée, y compris par Microsoft eux-mêmes, comme un potentiel catalyseur pour encourager le financement de la numérisation par les bibliothèques, les éditeurs, les pouvoirs publics.

Personnellement je m’interroge davantage sur le positionnement d’une bibliothèque comme la British Library, qui s’était lancée dans un partenariat resserré avec Microsoft et comptait sur Live Books Search pour lui servir d’interface de consultation. Même s’ils récupèrent du même coup leurs fichiers et leurs droits, c’est quand même un gros ajustement par rapport à leur stratégie de départ que de devoir construire leur propre bibliothèque numérique.
Pour l’instant personne n’a évoqué la réaction de la British Library, à ma connaissance.

Histoires de numérisation

Dans cet article, un gars de Google raconte les problèmes de gestion de l’information et du document qu’ils ont rencontrés en mettant en place Google Books Search. On y trouvera des réflexions sur l’OCR, l’analyse de documents, l’extraction de métadonnées, le traitement des images, l’affichage et la visualisation des documents ou extraits de documents, le logiciel libre et la R&D.

Dans Wired, on peut consulter un reportage photographique sur la numérisation réalisée par Internet Archive dans le cadre du projet OCA. Noter le côté très artisanal de la chose…

A consulter avec l’autre main : Framework for good digital collections (document du NISO, version 3, décembre 2007) et le probablement déjà cité Preservation in the age of large-scale digitization (Rapport du CLIR, par Oya Rieger de l’université de Cornell).

Sources :
Lorcan Dempsey
disruptive library technology jester

Europeana : l’aventure continue

Après quelques mois dans le giron de la France sous la forme d’un prototype que vous connaissez probablement (et qui a désormais rejoint l’histoire), Europeana vole maintenant de ses propres ailes au niveau européen.

Grâce au projet européen EDLnet et au travail des équipes de The European Library, le projet a décollé au niveau européen et débouché sur une maquette qui a été présentée au Salon du livre de Francfort.

On notera qu’ils ont quand même un sacré sens de la communication sur le Web, vu qu’ils proposent de gagner un iphone en répondant à un sondage sur la maquette, et qu’ils diffusent une vidéo promotionnelle sur UTube. Ils ont aussi un groupe Facebook qui peut être rejoint par tous les sympathisants au projet.

Pour ou contre… montrer l’OCR brut

Difficile question quand on décide de passer une bibliothèque numérique du mode image au mode texte : faut-il, ou non, montrer l’OCR brut aux utilisateurs ?

Oui, parce que des fois, l’OCR brut ça ressemble à ça :

i defon Camp tout herifâ de lances
•sgrands efforts, dont furent affaillis
ennemis ï vi les grands chamaîlHs
e$cmbatdnsJmlescri4ejfr’oydbles
es Vietnam & Huîtres redoutables,,
mhants au choc de nos braues lanàers,
tfout le huride nos rudes piquiers%-

Vous remarquerez, dans le texte ci-dessus tiré d’ici, que malgré quelques mots vaguement compréhensibles, on trouve surtout des caractères bizarroïdes et même ce que j’appellerais le syndrome des « huitres redoutables » : l’OCR croit avoir reconnu des mots, et en fait non, il se trompe. Et ça, il faut être humain pour s’en rendre compte.

Bref, l’OCR brut, ça peut être très moche. Toutefois, à l’école moi on m’a appris que parfois les documents pouvaient être moches et qu’il fallait les étudier quand même, qu’il fallait tout lire même les taches et les déchirures, et que c’est le travail de l’historien que de franchir le grand fossé entre l’état (parfois déplorable) de la source, et la compréhension du contenu.
C’est peut-être pour ça que je ne suis pas choquée par les e$cmbatdnsJmlescri4ejfr’oydbles.
Finalement je trouve ça bizarre de permettre aux gens de chercher dans l’OCR, de leur dire, voici une occurence de « huitres redoutables », et ne pas leur permettre de voir le matériau dans lequel ils ont cherché pour évaluer sa pertinence. Je suis donc dans les « pour », malgré tout : c’est une question de transparence.

Mais il y a plein de gens que ça choque, surtout venant d’une bibliothèque. On a un devoir de qualité… Donc OK pour indexer l’OCR brut, mais pas pour montrer des textes contenant des erreurs. Le lecteur ne trouvera que les mots qu’il cherche (sauf si c’est un lecteur pervers comme moi qui cherche « vrrt ») et donc ne verra pas les erreurs.

Si on regarde ce que font les autres, il y a deux écoles : ceux qui sont pour montrer l’OCR aux utilisateurs, et ceux qui sont contre.

Parmi les « pour » :
– Google books, eh oui. Bon ils ont longtemps hésité mais finalement, chez eux aussi on peut lire « tç iiSrfîiv l’çyov xui t.uyov olor’ anut. »
– le projet « Making of America » (notamment Université de Michigan, Cornell). Ils ont quand même vachement travaillé sur la qualité et comment on la calcule. On y trouve donc un peu de « ry~pkmn-r n~rt of r~ rr’r~ » mais pas tant que ça.
– la Library of Congress : alors là ça  » ionrod btlllIe to a d- ato ic » grave, notamment dans le projet « Stars & Stripes ».

Parmi les contre :
– Jstor, qui explique pourquoi ici : ils parlent de respect de l’intégrité de l’original, mais pourtant ils OCRisent et ils indexent
Early canadiana online qui explique ici l’accueil de leurs utilisateurs, plutôt bon (en tout cas à l’époque en 2002).
– Harvard, qui a aussi publié un rapport sur la façon de mesurer la qualité et vérifier que l’OCR répond aux besoins pour l’indexation.

Après il ya les options de l’entre-deux : calculer un niveau d’OCR « suffisamment bon » pour être montré, et placer une barrière qui empâcherait les utilisateurs de voir ce qui est en-dessous de cette limite. Ou encore, montrer l’OCR mais en « gommant » les mots suspects pour qu’ils passent inaperçus.

Et vous, vous en pensez quoi ? qualité ou transparence ?

Bibliothèque numérique de l’université de Michigan

L’université de Michigan a mis en ligne les ouvrages numérisés par Google dans le cadre de leur « partenariat », sur ce site : MBooks.

Au programme : une gestion de droits digne de ce nom, de beaux identifiants pérennes (Handle : http://hdl.handle.net/2027/mdp.39015004214865), et un entrepôt OAI contenant plus de 100 000 enregistrements, dont ils fournissent même le code source.

Eh oui, c’est ça la « library touch » : des standards et de belles métadonnées.