Pour ou contre… montrer l’OCR brut

Difficile question quand on décide de passer une bibliothèque numérique du mode image au mode texte : faut-il, ou non, montrer l’OCR brut aux utilisateurs ?

Oui, parce que des fois, l’OCR brut ça ressemble à ça :

i defon Camp tout herifâ de lances
•sgrands efforts, dont furent affaillis
ennemis ï vi les grands chamaîlHs
e$cmbatdnsJmlescri4ejfr’oydbles
es Vietnam & Huîtres redoutables,,
mhants au choc de nos braues lanàers,
tfout le huride nos rudes piquiers%-

Vous remarquerez, dans le texte ci-dessus tiré d’ici, que malgré quelques mots vaguement compréhensibles, on trouve surtout des caractères bizarroïdes et même ce que j’appellerais le syndrome des « huitres redoutables » : l’OCR croit avoir reconnu des mots, et en fait non, il se trompe. Et ça, il faut être humain pour s’en rendre compte.

Bref, l’OCR brut, ça peut être très moche. Toutefois, à l’école moi on m’a appris que parfois les documents pouvaient être moches et qu’il fallait les étudier quand même, qu’il fallait tout lire même les taches et les déchirures, et que c’est le travail de l’historien que de franchir le grand fossé entre l’état (parfois déplorable) de la source, et la compréhension du contenu.
C’est peut-être pour ça que je ne suis pas choquée par les e$cmbatdnsJmlescri4ejfr’oydbles.
Finalement je trouve ça bizarre de permettre aux gens de chercher dans l’OCR, de leur dire, voici une occurence de « huitres redoutables », et ne pas leur permettre de voir le matériau dans lequel ils ont cherché pour évaluer sa pertinence. Je suis donc dans les « pour », malgré tout : c’est une question de transparence.

Mais il y a plein de gens que ça choque, surtout venant d’une bibliothèque. On a un devoir de qualité… Donc OK pour indexer l’OCR brut, mais pas pour montrer des textes contenant des erreurs. Le lecteur ne trouvera que les mots qu’il cherche (sauf si c’est un lecteur pervers comme moi qui cherche « vrrt ») et donc ne verra pas les erreurs.

Si on regarde ce que font les autres, il y a deux écoles : ceux qui sont pour montrer l’OCR aux utilisateurs, et ceux qui sont contre.

Parmi les « pour » :
– Google books, eh oui. Bon ils ont longtemps hésité mais finalement, chez eux aussi on peut lire « tç iiSrfîiv l’çyov xui t.uyov olor’ anut. »
– le projet « Making of America » (notamment Université de Michigan, Cornell). Ils ont quand même vachement travaillé sur la qualité et comment on la calcule. On y trouve donc un peu de « ry~pkmn-r n~rt of r~ rr’r~ » mais pas tant que ça.
– la Library of Congress : alors là ça  » ionrod btlllIe to a d- ato ic » grave, notamment dans le projet « Stars & Stripes ».

Parmi les contre :
– Jstor, qui explique pourquoi ici : ils parlent de respect de l’intégrité de l’original, mais pourtant ils OCRisent et ils indexent
Early canadiana online qui explique ici l’accueil de leurs utilisateurs, plutôt bon (en tout cas à l’époque en 2002).
– Harvard, qui a aussi publié un rapport sur la façon de mesurer la qualité et vérifier que l’OCR répond aux besoins pour l’indexation.

Après il ya les options de l’entre-deux : calculer un niveau d’OCR « suffisamment bon » pour être montré, et placer une barrière qui empâcherait les utilisateurs de voir ce qui est en-dessous de cette limite. Ou encore, montrer l’OCR mais en « gommant » les mots suspects pour qu’ils passent inaperçus.

Et vous, vous en pensez quoi ? qualité ou transparence ?

Publicités

Bibliothèque numérique de l’université de Michigan

L’université de Michigan a mis en ligne les ouvrages numérisés par Google dans le cadre de leur « partenariat », sur ce site : MBooks.

Au programme : une gestion de droits digne de ce nom, de beaux identifiants pérennes (Handle : http://hdl.handle.net/2027/mdp.39015004214865), et un entrepôt OAI contenant plus de 100 000 enregistrements, dont ils fournissent même le code source.

Eh oui, c’est ça la « library touch » : des standards et de belles métadonnées.

La restauration numérique en question

Je me fais ici l’écho d’un débat vite passé sur la liste biblio-pat (pour les bibliothécaires patrimoniaux, dont je considère que je fais partie même si mon patrimoine est souvent numérique…)

La BIUM présente ici une expérience de restauration numérique : il s’agit de numériser des ouvrages des documents particulièrement précieux, fragiles, endommagés ou difficiles à photographier. Confiés à un photographe, les clichés ont été largement retouchés, recollés, réassemblés et retravaillés pour obtenir des clichés plus vrais que nature, « en visant un retour vers l’apparence qu’il pouvait avoir quand le temps ne l’avait pas encore dégradé ».

Réaction immédiate d’un collègue dont je ne citerai pas ici les nom et qualité, mais dont j’ai trouvé les arguments assez justes : il oppose le principe de la restauration, tel qu’on le conçoit aujourd’hui. Elle doit prendre en compte l’inscription du document dans le temps plutôt que chercher à la gommer, elle doit respecter l’historicité des objets. La reproduction se doit d’être fidèle à l’original tel qu’il est, et pas tel qu’il aurait dû ou pu être.

Pour ma part, j’observe simplement que les clichés mis en ligne par la BIUM sont magnifiques, et donc le travail du photographe concluant. A la limite, il faudrait pouvoir les comparer avec les prises de vue « brutes » de numérisation pour juger de l’ampleur des modifications.

En principe, je suis plutôt favorable à une numérisation respectant la réalité de l’original, et donc ses défauts, ses manques, bref son intégrité. Ca doit être mon côté chartiste. Toutefois ce n’est pas la première fois que je vois ou entends parler de ce type de restauration numérique. Combien de lecteurs se plaindront effectivement de cette distance entre l’original et la copie ? Bien peu, finalement, et en tout cas moins que de lecteurs qui se plaindront d’une numérisation tâchée, abimée et illisible.

Si vous avez un avis sur la question…

Nouvelles fonctionnalités de Google Books Search

En plus de l’affichage du texte OCRisé, que j’avais mentionné dans la rubrique « en bref » :

  • on peut sélectionner une portion d’image et la bloguer, la verser dans Google docs, ou la citer dans une page HTML, en texte ou en image
  • on peut créer des listes de documents personnelles (ma bibliothèque), les RSSifier, les exporter en XML bizarre,
  • dans ma bibliothèque, on peut mettre des commentaires et des tags (« libellés » qu’ils ont traduit ça !!!) sur un livre, et même le noter avec des étoiles,
  • on peut aussi importer des listes de livres en entrant leur ISBN,
  • on peut, paraît-il, partager tout cela avec ses amis (je n’ai pas trouvé la fonctionnalité, je ne dois pas avoir suffisamment d’amis…)
  • bien sûr, on peut faire une recherche sur le contenu de sa bibliothèque.

C’est fou ce qu’ils ont comme idées. On se demande où ils vont chercher tout ça…

Haro

Après presque 5 semaines de vacances, il va me falloir un peu de temps pour me remettre de ces émotions et remonter la longue file d’attente de la veille en retard (même si j’en ai purement et simplement abandonné une partie, d’ailleurs j’ai découvert à cette occasion qu’on ne pouvait pas avoir plus de 200 items dans un fil dans Bloglines…).

Au petit bonheur la chance, donc, voici un des trucs qui ont attiré mon attention dans ce grand dépouillement estival : les gens qui râlent avec une véhémence extraordinaire contre Google Books. Et pour une fois, avec des bonnes raisons, je veux dire, des raisons bibliothéconomiquement recevables.

L’article de Paul Duguid dans First Monday, pertinemment cité et même traduit par JM Salaün, nous rappelle les danger de la fameuse utopie de la reproduction absolue, du transfert complet de support.

Brewster Khlale (le papa d’Internet Archive) donne dans Library Journal une interview assassine qui dénonce l’adhésion des bibliothèques à un programme qui pèche par sa fermeture d’esprit. On verra s’il fait beaucoup mieux avec son méta- catalogue- universel- wiki- encyclopédie- bibliothèque- numérique, Open Library dont on peut voir pour l’instant une démo, sur lequel on peut lire cette interview d’Aaron Schwartz, et dont je reparlerai plus tard.

Pendant ce temps, Google signe avec Keio au Japon et Cornell aux Etats-Unis, entre deux réflexions sur les moldus et les hobbits.

Au fait, depuis octobre 2005, qu’est-ce qui a vraiment changé ?

Valoriser les collections numériques

Quelques méthodes intéressantes ont récemment surgi sur le Web pour valoriser des collections numériques. Cela n’a plus rien à voir avec la logique très construite et même, très bibliothéconomique, des expositions virtuelles ou dossiers documentaires qu’on a l’habitude de voir dans les bibliothèques numériques aussi bien francophones qu’anglo-saxonnes.

Du côté de la numérisation de masse, nous avons deux blogs : celui de Google books search et celui d’Internet Archive. Point commun de ces deux projets de numérisation : ce sont des entrepôts de documents, qui ne sont pas construits a priori dans une logique de politique documentaire. Dans ces conditions, la valorisation sous forme de blogs est appropriée. Elle se caractérise par la recherche de "perles", en relation ou non avec l’actualité, dans le gisement documentaire qui se trouve à disposition.

Du côté des bibliothèques, l’article de Dlib sur l’utilisation de Wikipedia pour valoriser les collections numériques a déjà été cité par Marlène : il s’agit de se positionner dans le flux des usages, d’aller au-devant des étudiants dans le site qu’ils consultent au lieu d’attendre qu’ils viennent à la bibliothèque numérique. Le projet de bibliothèque francophone dans Second Life (vu sur bib 2.0) s’inscrit à mes yeux dans la même logique, aller au-devant des usagers, là où ils se trouvent.

Ce que je trouve intéressant dans ces deux démarches, c’est qu’elles sont orientées vers la sérendipité et qu’elles obéissent à une temporalité différente, nouvelle. On ne construit plus les collections sur la politique documentaire. On construit la valorisation sur les collections, a posteriori. En même temps, on « pousse » cette valorisation vers les utilisateurs, soit par blog et donc par RSS, soit en se glissant dans le flux de leurs usages. Ils pourront ainsi rencontrer par hasard la bibliothèque, au lieu d’être forcés de s’y rendre comme par un passage obligé.

(PS : Je sais pas si vous avez remarqué, mais ce billet est parfaitement typique de la biblioblogosphère : il cite les copains et s’appuie sur des sources anglo-saxones, il parle de Google, il décrit des services qu’on n’a pas en France sans oser dire qu’on devrait les avoir, il est anonyme, prospectif, et se vautre dans la technologie. C’est fou, non ?)

Le Scribe du XXIe siècle

Le Scribe du XXIe siècle est mi-humain, mi machine.

La machine est une station de numérisation équipée d’un appareil photo numérique, d’une vitre pour aplatir les pages, et d’un logiciel libre, assemblés par Internet Archive. La partie humaine tourne les pages et déclenche les prises de vue dans un silence religieux.

Dans son scriptorium, le Scribe du XXIe siècle reproduit 500 pages de livres en une heure. A Toronto, 13 Scribes ont ainsi reproduit 200 000 ouvrages depuis 2004, et produisent régulièrement 1000 livres numériques par semaine.

Merci à Digitization101.

Manifeste, témoignage et bibliothèques numériques

DELOS est un projet européen sur les bibliothèques numériques initié en 2004. Dans le Dlib de mars/avril 2007 ils présentent leur digital library manifesto : un texte déclaratif qui remet à plat les définitions des bibliothèques numériques et de leurs systèmes.

Extrait et traduction de la terminologie :

  • Digital Library (DL) : une organisation, éventuellement virtuelle, qui collecte, gère et préserve sur le long terme un riche contenu numérique, et offre à ses communautés d’utilisateurs des fonctionnalités spécialisées d’accès à ce contenu, avec une garantie de qualité et suivant des politiques (chartes ?) codifiées.
  • Digital Library System (DLS) : un système logiciel basé sur une architecture éventuellement distribuée, qui fournit toutes les fonctionnalités dont une bibliothèque numérique (DL) donnée a besoin. Les usagers interagissent avec une bibliothèque numérique (DL)à travers ce système.
  • Digital Library Management System (DLMS) : un logiciel générique qui fournit l’infrastructure pour 1) produire et administrer un système de bibliothèque numérique (DLS) avec ses fonctionnalités fondamentales et 2) intégrer d’autres modules logiciels pour offrir des fonctions plus spécialisées.

Ensuite on y trouve plusieurs schémas qui modélisent les bibliothèques numériques, leurs systèmes et leurs relations avec les usagers.

Autant ce manifeste est conceptuel et déclaratif, autant le témoignage de James Billington, directeur de la Library of Congress, devant le Congrès américain, est ancré dans le concret et les projets. Beaucoup de chiffres y sont donnés sur les contenus numériques, leur préservation à long terme dans le cadre du programme NDIIPP, et l’accès dans le cadre de la World Digital Library.

Quelques petits chiffres au hasard :

  • il a fallu deux siècles à la Library of Congress pour amasser une quantité d’information équivalente à celle qui est produite sur le Web toutes les 15 minutes
  • un site Web a une durée de vie moyenne de 44 à 75 jours
  • il y a 11 millions d’items (?) sur le site American Memory
  • le budget pour numériser les 5 premiers millions d’items d’American Memory était estimé à 60 millions de dollars en 1994
  • Google subventionne le lancement de la World Digital Library à hauteur de 3 millions de dollars
  • Le nouveau centre de conservation de l’audiovisuel (NAVCC) coûte plus de 150 millions de dollars à son mécène, une fondation nommée PHI, pour y conserver 5 millions d’items et prévoir 25 ans d’accroissement.

Lamentations

Repéré sur Open access news, ce billet de Peter Brantley, bibliothécaire (et même "director of digital library technologies") à l’Université de Californie, à compléter obligatoirement par ces explications.

Parterre de jonquilles

Il s’agit des relations entre l’université en question et le programme Google books, auquel elle a été l’une des premières à adhérer. Peter nous fait part de ses regrets, des « erreurs » qui ont été faites. Ses lamentations ne portent ni sur le projet lui-même, ni sur la participation de l’UC, ni sur les problèmes techniques ou les doutes sur la propriété des images numérisées.

Elles portent sur le rôle essentiel de médiation que, dans son empressement à accepter la généreuse proposition qui lui était faite, la bibliothèque a trop vite abdiqué.

Les bibliothèques, avec leur capacité à se mettre en réseau, auraient dû prendre l’initiative, donner le ton de la conversation, porter le débat sur la place publique sur des sujets comme les droits d’auteurs, le respect de la vie privée ou les usages de l’information pour l’enseignement et la recherche. Elles auraient dû – elles devraient – être un interlocuteur privilégié pour les éditeurs. Elles devraient piloter la collaboration autour de la numérisation, au lieu de la subir.

Une lecture édifiante que ces deux billets.

La bibliothèque numérique du monde

Le projet de "World digital library" a été annoncé dès 2005 par J. Billington, directeur de la Library of Congress. Il y a peu, le monsieur était à Paris à l’UNESCO pour présenter sa bibliothèque numérique du monde : un projet assez différent de ceux qui relèvent de la "numérisation de masse" puisqu’il s’agit plutôt de valoriser des fonds patrimoniaux représentatifs de la culture du monde. Une expo virtuelle géante en quelque sorte.

Bref, je suis tombée aujourd’hui sur le site de la World digital library ou plutôt de son projet puisque pour l’instant, ce qu’il y a à voir c’est surtout une vision… Ne loupez à aucun prix cette vidéo. C’est un petit bijou de marketing, une remarquable mise en scène et en écrans du numérique (et ce n’est pas facile de filmer le numérique).

Je ne sais pas si cette débauche de « hype » bien léché me fait vraiment envie en tant que professionnelle des bibliothèques. Disons que si on m’avait demandé de faire la maquette d’une grande bibliothèque numérique internationale, je n’aurais probablement pas fait cela ;-) Mais il faut avouer que c’est assez prometteur.