Pour ou contre… montrer l’OCR brut

Difficile question quand on décide de passer une bibliothèque numérique du mode image au mode texte : faut-il, ou non, montrer l’OCR brut aux utilisateurs ?

Oui, parce que des fois, l’OCR brut ça ressemble à ça :

i defon Camp tout herifâ de lances
•sgrands efforts, dont furent affaillis
ennemis ï vi les grands chamaîlHs
e$cmbatdnsJmlescri4ejfr’oydbles
es Vietnam & Huîtres redoutables,,
mhants au choc de nos braues lanàers,
tfout le huride nos rudes piquiers%-

Vous remarquerez, dans le texte ci-dessus tiré d’ici, que malgré quelques mots vaguement compréhensibles, on trouve surtout des caractères bizarroïdes et même ce que j’appellerais le syndrome des « huitres redoutables » : l’OCR croit avoir reconnu des mots, et en fait non, il se trompe. Et ça, il faut être humain pour s’en rendre compte.

Bref, l’OCR brut, ça peut être très moche. Toutefois, à l’école moi on m’a appris que parfois les documents pouvaient être moches et qu’il fallait les étudier quand même, qu’il fallait tout lire même les taches et les déchirures, et que c’est le travail de l’historien que de franchir le grand fossé entre l’état (parfois déplorable) de la source, et la compréhension du contenu.
C’est peut-être pour ça que je ne suis pas choquée par les e$cmbatdnsJmlescri4ejfr’oydbles.
Finalement je trouve ça bizarre de permettre aux gens de chercher dans l’OCR, de leur dire, voici une occurence de « huitres redoutables », et ne pas leur permettre de voir le matériau dans lequel ils ont cherché pour évaluer sa pertinence. Je suis donc dans les « pour », malgré tout : c’est une question de transparence.

Mais il y a plein de gens que ça choque, surtout venant d’une bibliothèque. On a un devoir de qualité… Donc OK pour indexer l’OCR brut, mais pas pour montrer des textes contenant des erreurs. Le lecteur ne trouvera que les mots qu’il cherche (sauf si c’est un lecteur pervers comme moi qui cherche « vrrt ») et donc ne verra pas les erreurs.

Si on regarde ce que font les autres, il y a deux écoles : ceux qui sont pour montrer l’OCR aux utilisateurs, et ceux qui sont contre.

Parmi les « pour » :
– Google books, eh oui. Bon ils ont longtemps hésité mais finalement, chez eux aussi on peut lire « tç iiSrfîiv l’çyov xui t.uyov olor’ anut. »
– le projet « Making of America » (notamment Université de Michigan, Cornell). Ils ont quand même vachement travaillé sur la qualité et comment on la calcule. On y trouve donc un peu de « ry~pkmn-r n~rt of r~ rr’r~ » mais pas tant que ça.
– la Library of Congress : alors là ça  » ionrod btlllIe to a d- ato ic » grave, notamment dans le projet « Stars & Stripes ».

Parmi les contre :
– Jstor, qui explique pourquoi ici : ils parlent de respect de l’intégrité de l’original, mais pourtant ils OCRisent et ils indexent
Early canadiana online qui explique ici l’accueil de leurs utilisateurs, plutôt bon (en tout cas à l’époque en 2002).
– Harvard, qui a aussi publié un rapport sur la façon de mesurer la qualité et vérifier que l’OCR répond aux besoins pour l’indexation.

Après il ya les options de l’entre-deux : calculer un niveau d’OCR « suffisamment bon » pour être montré, et placer une barrière qui empâcherait les utilisateurs de voir ce qui est en-dessous de cette limite. Ou encore, montrer l’OCR mais en « gommant » les mots suspects pour qu’ils passent inaperçus.

Et vous, vous en pensez quoi ? qualité ou transparence ?

Bonnes résolutions

Chaque année, c’est la même chose : il faut trouver des bonnes résolutions à prendre, de préférence nouvelles et originales. Comme je n’ai aucune imagination, je suis allée voir mon médecin et il m’en a donné plein.

Comme par exemple :
– ne pas fumer (facile, je ne fume pas)
– ne pas boire d’alcool (plus dur)
– ne pas manger de viande crue, de fromage cru, de légumes crus, de salade crue, de poisson cru, de fruits de mer crus, bref rien de cru (ça se corse)
– ne pas caresser de chats (ouin !)
– ne pas manger de sucreries (quoi ! même pas de chocolat !)
– ne pas prendre trop de poids (j’essaye…)
– ne pas trop travailler (enfin une agréable !!!)

Vous comprendrez bien que dans ces circonstances, j’aie moyennement envie de rajouter des trucs facultatifs, comme « bloguer plus régulièrement ». Ces prochains mois je risque donc de concentrer mon énergie ailleurs – même si la liste de trucs de veille à lire et à bloguer continue à s’allonger pendant ce temps…