Histoires de numérisation

Dans cet article, un gars de Google raconte les problèmes de gestion de l’information et du document qu’ils ont rencontrés en mettant en place Google Books Search. On y trouvera des réflexions sur l’OCR, l’analyse de documents, l’extraction de métadonnées, le traitement des images, l’affichage et la visualisation des documents ou extraits de documents, le logiciel libre et la R&D.

Dans Wired, on peut consulter un reportage photographique sur la numérisation réalisée par Internet Archive dans le cadre du projet OCA. Noter le côté très artisanal de la chose…

A consulter avec l’autre main : Framework for good digital collections (document du NISO, version 3, décembre 2007) et le probablement déjà cité Preservation in the age of large-scale digitization (Rapport du CLIR, par Oya Rieger de l’université de Cornell).

Sources :
Lorcan Dempsey
disruptive library technology jester

Normes

En vrac, l’actualité de ces derniers mois sur les normes et bonnes pratiques qui intéressent les données bibliographiques.

En janvier a été publiée la version définitive du rapport du « wogrofubico », le groupe de travail sur l’avenir des données bibliographiques, qui rassemblait entre autres la Library of Congress et Google. Il contient de nombreuses recommandations sur l’avenir de la coordination bibliographique, la visibilité des métadonnées, les technologies liées au Web comme les identifiants pérennes, la normalisation autour de RDA et FRBR, et son implémentation, etc.

En janvier aussi, l’IFLA a publié la dernière version des FRBRoo. Cette nouvelle version est compatible avec le CRM-Cidoc et avec les technologies du Web sémantique. Elle fait l’objet d’un appel à commentaires jusqu’au 21 avril.

A la fin de ce prolixe mois de janvier, le W3C a publié SKOS Simple Knowledge Organization System Reference, dernière version de ce modèle d’encodage des thésaurus pour le web sémantique. A lire avec dans l’autre main le SKOS primer sorti en février.

En février, l’IFLA a publié une version révisée des FRBR (pas oo).

En mars, la Library of Congress a présenté LCCN, son système d’identifiants pérennes pour ses notices bibliographiques.

En mars, la convergence entre le catalogage et le Web sémantique se renforce. Voir une initiative personnelle ici, mais surtout cette annonce d’un travail qui commence sur la RDFisation des RDA. Ce travail est piloté par le groupe de travail RDA/DCMI et inclut Alistair Miles (alias Monsieur SKOS).

Une version complète des RDA devrait voir le jour cet été.

Séminaire sur la préservation numérique

Un peu de pub : l’association Aristote et le groupe PIN organise un séminaire le Jeudi 10 avril 2008 à l’Ecole Polytechnique à Palaiseau. Le thème en est : « Pérennisation de l’information numérique : les changements spectaculaires du paysage national et du contexte européen » (programme complet). Ca devrait être assez intéressant pour tous les gens qui s’intéressent à la préservation des documents numériques.

On peut s’inscrire jusqu’au 4 avril. Le séminaire sera aussi retransmis en direct sur le Web (voir mode d’emploi ici).

Préservation numérique : accord Portico / KB

La Bibliothèque Royale des Pays-Bas (KB) et Portico annoncent qu’ils viennent de passer un accord. Ces deux acteurs sont des mastodontes dans le contexte de la préservation des revues électroniques.

Avec son service « e-depot », la KB se positionne comme archive fiable pour les revues, notamment celles qui sont éditées aux Pays-Bas (Elzevier, ça vous dit quelque chose ?) et a été l’une des premières grandes bibliothèques nationales à avoir un service de ce genre en production.
Portico, de son côté, est une organisation à but non lucratif qui offre des services aux revues qui ont besoin d’être préservées, et aux bibliothèques qui veulent s’y abonner.

En s’engageant à héberger une copie sécurisée de Portico dans ses emprises, la KB donne un bon exemple de la façon dont les acteurs majeurs de la préservation numérique peuvent collaborer sur le plan international pour se donner plus de chances de remplir leur mission (presque) impossible.
Avec le défi qui nous attend, on se sent plus en sécurité à plusieurs.

Dublin Core : on n’y comprend plus rien

Au départ, Dublin Core, ça a l’air simple : il y a 15 éléments, tous facultatifs et répétables, et voilà.

Après, ça se complique : à ces 15 éléments (le Dublin Core dit « simple ») vient s’ajouter le Dublin Core qualifié, dans lequel on dispose d’attributs pour préciser le sens des 15 éléments de base.
Par exemple, pour prendre un truc simple et connu, on peut qualifier l’élément DC:coverage par l’attribut « spatial » ou « temporal ».

En fait, le DC qualifié n’est qu’une manière d’utiliser les Dublin Core metadata terms (DC terms), une liste d’éléments de métadonnées maintenus par le DCMI (Dublin Core metadata initiative).
Certains de ces éléments de métadonnées correspondent aux 15 éléments de base.
D’autres correspondent à autre chose : notamment des propriétés (isPartOf, isFormatOf etc.), des référentiels complémentaires (comme par exemple la liste des types qu’on peut utiliser dans DC:type), etc.

Tout ça fait partie d’une logique commune, le Dublin Core Abstract Model (DCAM), qui a la couleur du RDF, la saveur du RDF, mais… n’est pas du RDF.

Après, il y a différentes méthodes pour encoder le Dublin Core : en HTML, en XML, en RDF.
Dublin Core simple et qualifié correspondent à des schémas d’encodage en XML.
Il y a aussi des schémas d’encodage en RDF.

Le résultat, c’est que Dublin Core, tout le monde connaît. On sait que c’est des métadonnées, que ça s’exprime en XML, que ça va bien sur le Web et que ça a un rapport avec le Web sémantique. Mais en pratique, on n’y comprend plus rien.

Donc voici un petit glossaire à l’usage des gens qui se réfèrent au Dublin Core. C’est tout ce qu’il faut retenir pour réussir à y comprendre quelque chose.
– L’ensemble des termes du Dublin Core, c’est le Dublin Core Metadata Terms. On peut les appeler par leur petit nom : les DC terms.
– Parmi ces termes, il y a 15 éléments de base, le coeur historique du Dublin Core : c’est le Dublin Core Element Set.
– Parmi les expressions en XML du Dublin Core, le Dublin Core simple utilise les 15 éléments de base et uniquement ceux-là, alors que le Dublin Core qualifié peut utiliser d’autres DC terms.
– RDF est le langage le plus naturel pour exprimer du Dublin Core (Terms ou Elements) suivant le modèle abstrait du Dublin Core, le DCAM.
– Le DCMI est une organisation qui maintient l’ensemble.

J’espère que c’est – un peu – plus clair…

Marc 21 et le Web sémantique

Un article à lire : Semantic MARC, MARC 21 and the Semantic Web par les gens de Talis.

Dans cet article, ils exposent comment transformer « facilement » des données en MARC 21 en RDF, avec une méthodologie qui selon eux pourrait permettre de créer en un clin d’oeil un réseau de données entre des catalogues distants.
Ce qui m’a frappée c’est que leur stratégie repose sur la création et, je ne sais pas si on peut dire ça, l’alignement des URI qu’ils génèrent à partir des différents champs des notices. En gros, pour générer l’URI d’une ressource, ils utilisent la chaîne de caractère correspondant au champ de la notice, qu’ils normalisent (en retirant la ponctuation notamment) avant de la faire précéder d’un domaine. De cette façon, lorsque la même chaîne de caractères ou presque apparaît dans différentes notices, elles sont reliées automatiquement par cette URI commune. C’est de cette façon, notamment, qu’ils relient les notices d’autorité avec les notices bibliographiques.

Approche qui me laisse songeuse car :
– du coup ils n’exploitent pas les liens qui existent déjà entre les notices bibliographiques et d’autorité
– ils n’utilisent pas non plus de beau système d’identifiant de notices comme LCCN alors que les bibliothèques se donnent bien du mal à mettre ces URI de référence en place.

Enfin, on se retrouve avec des tas d’URI plus ou moins ambigües par rapport aux ressources qu’elles désignent : plusieurs URIs pour la même ressource, ou l’inverse. Mais est-ce si grave ?

Europeana : l’aventure continue

Après quelques mois dans le giron de la France sous la forme d’un prototype que vous connaissez probablement (et qui a désormais rejoint l’histoire), Europeana vole maintenant de ses propres ailes au niveau européen.

Grâce au projet européen EDLnet et au travail des équipes de The European Library, le projet a décollé au niveau européen et débouché sur une maquette qui a été présentée au Salon du livre de Francfort.

On notera qu’ils ont quand même un sacré sens de la communication sur le Web, vu qu’ils proposent de gagner un iphone en répondant à un sondage sur la maquette, et qu’ils diffusent une vidéo promotionnelle sur UTube. Ils ont aussi un groupe Facebook qui peut être rejoint par tous les sympathisants au projet.

Pour ou contre… montrer l’OCR brut

Difficile question quand on décide de passer une bibliothèque numérique du mode image au mode texte : faut-il, ou non, montrer l’OCR brut aux utilisateurs ?

Oui, parce que des fois, l’OCR brut ça ressemble à ça :

i defon Camp tout herifâ de lances
•sgrands efforts, dont furent affaillis
ennemis ï vi les grands chamaîlHs
e$cmbatdnsJmlescri4ejfr’oydbles
es Vietnam & Huîtres redoutables,,
mhants au choc de nos braues lanàers,
tfout le huride nos rudes piquiers%-

Vous remarquerez, dans le texte ci-dessus tiré d’ici, que malgré quelques mots vaguement compréhensibles, on trouve surtout des caractères bizarroïdes et même ce que j’appellerais le syndrome des « huitres redoutables » : l’OCR croit avoir reconnu des mots, et en fait non, il se trompe. Et ça, il faut être humain pour s’en rendre compte.

Bref, l’OCR brut, ça peut être très moche. Toutefois, à l’école moi on m’a appris que parfois les documents pouvaient être moches et qu’il fallait les étudier quand même, qu’il fallait tout lire même les taches et les déchirures, et que c’est le travail de l’historien que de franchir le grand fossé entre l’état (parfois déplorable) de la source, et la compréhension du contenu.
C’est peut-être pour ça que je ne suis pas choquée par les e$cmbatdnsJmlescri4ejfr’oydbles.
Finalement je trouve ça bizarre de permettre aux gens de chercher dans l’OCR, de leur dire, voici une occurence de « huitres redoutables », et ne pas leur permettre de voir le matériau dans lequel ils ont cherché pour évaluer sa pertinence. Je suis donc dans les « pour », malgré tout : c’est une question de transparence.

Mais il y a plein de gens que ça choque, surtout venant d’une bibliothèque. On a un devoir de qualité… Donc OK pour indexer l’OCR brut, mais pas pour montrer des textes contenant des erreurs. Le lecteur ne trouvera que les mots qu’il cherche (sauf si c’est un lecteur pervers comme moi qui cherche « vrrt ») et donc ne verra pas les erreurs.

Si on regarde ce que font les autres, il y a deux écoles : ceux qui sont pour montrer l’OCR aux utilisateurs, et ceux qui sont contre.

Parmi les « pour » :
– Google books, eh oui. Bon ils ont longtemps hésité mais finalement, chez eux aussi on peut lire « tç iiSrfîiv l’çyov xui t.uyov olor’ anut. »
– le projet « Making of America » (notamment Université de Michigan, Cornell). Ils ont quand même vachement travaillé sur la qualité et comment on la calcule. On y trouve donc un peu de « ry~pkmn-r n~rt of r~ rr’r~ » mais pas tant que ça.
– la Library of Congress : alors là ça  » ionrod btlllIe to a d- ato ic » grave, notamment dans le projet « Stars & Stripes ».

Parmi les contre :
– Jstor, qui explique pourquoi ici : ils parlent de respect de l’intégrité de l’original, mais pourtant ils OCRisent et ils indexent
Early canadiana online qui explique ici l’accueil de leurs utilisateurs, plutôt bon (en tout cas à l’époque en 2002).
– Harvard, qui a aussi publié un rapport sur la façon de mesurer la qualité et vérifier que l’OCR répond aux besoins pour l’indexation.

Après il ya les options de l’entre-deux : calculer un niveau d’OCR « suffisamment bon » pour être montré, et placer une barrière qui empâcherait les utilisateurs de voir ce qui est en-dessous de cette limite. Ou encore, montrer l’OCR mais en « gommant » les mots suspects pour qu’ils passent inaperçus.

Et vous, vous en pensez quoi ? qualité ou transparence ?

ORE, un modèle d’objet numérique pour le Web sémantique

L’initiative OAI-ORE, développée dans l’environnement de l’Open Archive Initiative, vient de sortir en version « alpha » ses premières specifications. Depuis le début, je regarde d’un oeil attentif ces travaux qui me semblent répondre à pas mal de questions pertinentes dans l’environnement des bibliothèques numériques, comme par exemple celle de l’interopérabilité des objets complexes. En effet l’objectif d’ORE est de rendre « machine readable » des descriptions de documents complexes qui sont présents sur le Web. Autrement dit, passer du Web de documents au Web of data…

Dans la partie « Abstract Data Model » de la spec, j’avoue trouver avec bonheur certaines de mes grandes espérances puisqu’il y est largement question des technologies du Web sémantique. Je vais essayer d’expliquer le modèle de façon simple (ce n’est pas évident car il est décrit dans la spec de façon embrouillée, si je peux me permettre – c’est une version alpha…)

L’objectif d’ORE est d’échanger des descriptions de ressources qui s’agrègent les unes les autres de façon très souple. Un regroupement (intellectuel en général) de ressources est appelé Aggregation et est obligatoirement décrit par un document unique, la Resource Map. Cette Resource Map est un ensemble de triples en RDF, qui décrivent l’Aggregation elle-même, les ressources qu’elle agrège, et leurs relations entre elles et avec des objets extérieurs. Certaines relations sont imposées (notamment celle entre Resource Map et Aggregation) et donc il y a des « triples obligatoires » dans la Resource Map.

Le modèle est très souple en ce qui concerne les ressources elles-mêmes, leurs agrégations, leurs métadonnés, les relations. Une ressource agrégée peut par exemple être aussi une agrégation d’autres ressources. Une même ressource peut être agrégée par plusieurs agrégations. Etc.
Par contre, la notion de Resource Map est beaucoup plus contraignante : elle ne décrit qu’une seule agrégation, elle a des métadonnées obligatoires (un créateur pour la « confiance », et un « timestamp » pour gérer les mises à jour), et on doit pouvoir la représenter dans un format (la « sérialiser » comme ils disent). Bref, la Resource Map est un document.
Comme c’est un document, elle a elle-même un identifiant (une URI), on parle alors de « Named Graph » (traduction en français ?) Cette notion de Named Graph me semble assez complexe, j’avoue que je n’ai pas trop compris mais cela semble être un truc qui sert à attacher des triples ensemble, donc à transformer des données en documents.

On peut exprimer une Resource Map avec un profil ATOM. C’est même la seule solution proposée pour l’instant (même si ce n’est qu’une façon possible, en théorie n’importe quelle méthode pour encoder des triples en RDF pourrait faire l’affaire, d’autres formats sont envisagés pour l’avenir comme GRDDL.)

Quelques remarques : tout cela me donne l’impression d’une conception qui ne va pas au bout de ses ambitions. Bien sûr le modèle est très souple et on pourrait sans doute l’utiliser pour rendre interopérables plein de formats d’empaquetage comme METS, MPEG21 DIDL, etc. En s’appuyant sur RDF, il s’abstrait des problèmes d’interopérabilité que pourrait poser une souplesse aussi absolue.
Mais quand même, il y a un truc qui me chiffonne, c’est qu’en théorie, en RDF on pourrait s’abstraire de la formalisation d’une carte de structure telle qu’elle est proposée par la Resource Map. Quand on RDFise on rend la structure du « document » implicite puisqu’on atomise la granularité. Il doit donc y avoir un intérêt (que là tout de suite je ne vois pas) pour lui ré-imposer un format de « document » et vu que le format de document est Atom, je suppose que c’est pour pouvoir échanger des « documents » entre des machines (comme on fait avec RSS). On voit bien ici l’héritage du protocole OAI, qui sert à échanger des « notices » (qui sont elles-mêmes des sortes de documents, enfin on pourrait en discuter).
Je ne peux pas dire pourquoi mais je le ressens comme quelque chose de rigide. C’est du RDF mais… pas du vrai Web of Data.
Finalement ce qui me gène c’est l’équivalence 1- 1 entre la Resource Map et l’Aggregation. A quoi bon être si rigide, pour permettre ensuite une récursivité presque délirante dans les niveaux en-dessous ? C’est comme si on mettait de façon artificielle un couvercle sur une casserole sans parois ;-)

Et les spécialistes, ils en pensent quoi ? Les geeks, c’est à vous. Pardon pour les autres qui n’ont rien compris à ce billet.

Bibliothèque numérique de l’université de Michigan

L’université de Michigan a mis en ligne les ouvrages numérisés par Google dans le cadre de leur « partenariat », sur ce site : MBooks.

Au programme : une gestion de droits digne de ce nom, de beaux identifiants pérennes (Handle : http://hdl.handle.net/2027/mdp.39015004214865), et un entrepôt OAI contenant plus de 100 000 enregistrements, dont ils fournissent même le code source.

Eh oui, c’est ça la « library touch » : des standards et de belles métadonnées.