Difficile question quand on décide de passer une bibliothèque numérique du mode image au mode texte : faut-il, ou non, montrer l’OCR brut aux utilisateurs ?
Oui, parce que des fois, l’OCR brut ça ressemble à ça :
i defon Camp tout herifâ de lances
•sgrands efforts, dont furent affaillis
ennemis ï vi les grands chamaîlHs
e$cmbatdnsJmlescri4ejfr’oydbles
es Vietnam & Huîtres redoutables,,
mhants au choc de nos braues lanàers,
tfout le huride nos rudes piquiers%-
Vous remarquerez, dans le texte ci-dessus tiré d’ici, que malgré quelques mots vaguement compréhensibles, on trouve surtout des caractères bizarroïdes et même ce que j’appellerais le syndrome des « huitres redoutables » : l’OCR croit avoir reconnu des mots, et en fait non, il se trompe. Et ça, il faut être humain pour s’en rendre compte.
Bref, l’OCR brut, ça peut être très moche. Toutefois, à l’école moi on m’a appris que parfois les documents pouvaient être moches et qu’il fallait les étudier quand même, qu’il fallait tout lire même les taches et les déchirures, et que c’est le travail de l’historien que de franchir le grand fossé entre l’état (parfois déplorable) de la source, et la compréhension du contenu.
C’est peut-être pour ça que je ne suis pas choquée par les e$cmbatdnsJmlescri4ejfr’oydbles.
Finalement je trouve ça bizarre de permettre aux gens de chercher dans l’OCR, de leur dire, voici une occurence de « huitres redoutables », et ne pas leur permettre de voir le matériau dans lequel ils ont cherché pour évaluer sa pertinence. Je suis donc dans les « pour », malgré tout : c’est une question de transparence.
Mais il y a plein de gens que ça choque, surtout venant d’une bibliothèque. On a un devoir de qualité… Donc OK pour indexer l’OCR brut, mais pas pour montrer des textes contenant des erreurs. Le lecteur ne trouvera que les mots qu’il cherche (sauf si c’est un lecteur pervers comme moi qui cherche « vrrt ») et donc ne verra pas les erreurs.
Si on regarde ce que font les autres, il y a deux écoles : ceux qui sont pour montrer l’OCR aux utilisateurs, et ceux qui sont contre.
Parmi les « pour » :
– Google books, eh oui. Bon ils ont longtemps hésité mais finalement, chez eux aussi on peut lire « tç iiSrfîiv l’çyov xui t.uyov olor’ anut. »
– le projet « Making of America » (notamment Université de Michigan, Cornell). Ils ont quand même vachement travaillé sur la qualité et comment on la calcule. On y trouve donc un peu de « ry~pkmn-r n~rt of r~ rr’r~ » mais pas tant que ça.
– la Library of Congress : alors là ça » ionrod btlllIe to a d- ato ic » grave, notamment dans le projet « Stars & Stripes ».
Parmi les contre :
– Jstor, qui explique pourquoi ici : ils parlent de respect de l’intégrité de l’original, mais pourtant ils OCRisent et ils indexent
– Early canadiana online qui explique ici l’accueil de leurs utilisateurs, plutôt bon (en tout cas à l’époque en 2002).
– Harvard, qui a aussi publié un rapport sur la façon de mesurer la qualité et vérifier que l’OCR répond aux besoins pour l’indexation.
Après il ya les options de l’entre-deux : calculer un niveau d’OCR « suffisamment bon » pour être montré, et placer une barrière qui empâcherait les utilisateurs de voir ce qui est en-dessous de cette limite. Ou encore, montrer l’OCR mais en « gommant » les mots suspects pour qu’ils passent inaperçus.
Et vous, vous en pensez quoi ? qualité ou transparence ?