Pour ou contre… montrer l’OCR brut

Difficile question quand on décide de passer une bibliothèque numérique du mode image au mode texte : faut-il, ou non, montrer l’OCR brut aux utilisateurs ?

Oui, parce que des fois, l’OCR brut ça ressemble à ça :

i defon Camp tout herifâ de lances
•sgrands efforts, dont furent affaillis
ennemis ï vi les grands chamaîlHs
e$cmbatdnsJmlescri4ejfr’oydbles
es Vietnam & Huîtres redoutables,,
mhants au choc de nos braues lanàers,
tfout le huride nos rudes piquiers%-

Vous remarquerez, dans le texte ci-dessus tiré d’ici, que malgré quelques mots vaguement compréhensibles, on trouve surtout des caractères bizarroïdes et même ce que j’appellerais le syndrome des « huitres redoutables » : l’OCR croit avoir reconnu des mots, et en fait non, il se trompe. Et ça, il faut être humain pour s’en rendre compte.

Bref, l’OCR brut, ça peut être très moche. Toutefois, à l’école moi on m’a appris que parfois les documents pouvaient être moches et qu’il fallait les étudier quand même, qu’il fallait tout lire même les taches et les déchirures, et que c’est le travail de l’historien que de franchir le grand fossé entre l’état (parfois déplorable) de la source, et la compréhension du contenu.
C’est peut-être pour ça que je ne suis pas choquée par les e$cmbatdnsJmlescri4ejfr’oydbles.
Finalement je trouve ça bizarre de permettre aux gens de chercher dans l’OCR, de leur dire, voici une occurence de « huitres redoutables », et ne pas leur permettre de voir le matériau dans lequel ils ont cherché pour évaluer sa pertinence. Je suis donc dans les « pour », malgré tout : c’est une question de transparence.

Mais il y a plein de gens que ça choque, surtout venant d’une bibliothèque. On a un devoir de qualité… Donc OK pour indexer l’OCR brut, mais pas pour montrer des textes contenant des erreurs. Le lecteur ne trouvera que les mots qu’il cherche (sauf si c’est un lecteur pervers comme moi qui cherche « vrrt ») et donc ne verra pas les erreurs.

Si on regarde ce que font les autres, il y a deux écoles : ceux qui sont pour montrer l’OCR aux utilisateurs, et ceux qui sont contre.

Parmi les « pour » :
– Google books, eh oui. Bon ils ont longtemps hésité mais finalement, chez eux aussi on peut lire « tç iiSrfîiv l’çyov xui t.uyov olor’ anut. »
– le projet « Making of America » (notamment Université de Michigan, Cornell). Ils ont quand même vachement travaillé sur la qualité et comment on la calcule. On y trouve donc un peu de « ry~pkmn-r n~rt of r~ rr’r~ » mais pas tant que ça.
– la Library of Congress : alors là ça  » ionrod btlllIe to a d- ato ic » grave, notamment dans le projet « Stars & Stripes ».

Parmi les contre :
– Jstor, qui explique pourquoi ici : ils parlent de respect de l’intégrité de l’original, mais pourtant ils OCRisent et ils indexent
Early canadiana online qui explique ici l’accueil de leurs utilisateurs, plutôt bon (en tout cas à l’époque en 2002).
– Harvard, qui a aussi publié un rapport sur la façon de mesurer la qualité et vérifier que l’OCR répond aux besoins pour l’indexation.

Après il ya les options de l’entre-deux : calculer un niveau d’OCR « suffisamment bon » pour être montré, et placer une barrière qui empâcherait les utilisateurs de voir ce qui est en-dessous de cette limite. Ou encore, montrer l’OCR mais en « gommant » les mots suspects pour qu’ils passent inaperçus.

Et vous, vous en pensez quoi ? qualité ou transparence ?

7 réflexions sur “Pour ou contre… montrer l’OCR brut

  1. J’opterais pour la transparence, assurément.
    La plupart des usagers de la recherche plein texte ignorent la complexité des processus d’indexation et les biais qu’ils peuvent apporter à la fiabilité des réponses que le moteur leur propose. Étant donné les différences de quantité de silence et de bruit constatées entre deux documents ou parties de documents, une indication de la fiabilité des résultats devrait être incluse dans les métadonnées accessibles à chaque document.
    L’idéal serait d’avoir accès document par document (optionnellement ?) à un certain nombre d’indications renseignées lors du processus de numérisation (la section «ocrProcessingType» du schéma de METS ALTO devrait permettre ça ?).
    Pour ma part, j’aimerais savoir :

    si le document a été indexé à partir d’une rétroconversion (par ex. sur un PDF) et dans ce cas à partir de quel format numérique;
    si le document a été indexé à partir d’un OCR brut (sans recours à un dictionnaire);
    si l’index a été corrigé avec un dictionnaire multilingue;
    si lune relecture/correction humaine des erreurs signalées par l’OCR a été faite;
    si les césures en fin de ligne ont été résolues.

    J’oublie certainement bien des critères intéressants…
    On pourrait peut-être aussi avoir accès aux logs d’erreurs des OCR non corrigés, ou au moins à des statistiques issues du traitement.
    Lors de l’affichage de l’image d’une page comportant la chaîne de caractères recherchée, j’aimerais bien pouvoir afficher le résultat de l’OCR de la page, mais aussi peut-être une fenêtre « pop-up » déclenchée en « roll-over » sur le « hit » montrant le résultat OCR de la ligne (ou éventuellement de celle-ci et des lignes précédente et suivante)…

    (J’avais donné des exemples de disparité des résultats en commentaire au billet d’Alexandre Moatti Gallica 2)

  2. Pourquoi ne pas montrer l’OCR brut en laissant la possibilité aux usagers de le « corriger  » ?
    Et pour ne pas ouvrir cette possibilité à n’importe quel vandale ;-), l’on accrédite les usagers à qui l’on donne le droit d’apporter ces corrections…
    Oui, je sais, nous avons déjà parlé de ça, je crois.. Mais en l’espèce, l’on se prive de relecteurs attentifs et nombreux…

  3. En général, si on utilise aujourd’hui un logiciel correct et des images numérisées dans les règles de l’art à partir d’un original bien conservé, l’OCR brut n’est quand même pas aussi désastreux.

    Même si on affiche toujours les images au visiteur, et qu’on n’oublie pas un bon catalogage, ce serait dommage de se priver de la recherche plein texte et, en plus, les moteurs de recherche eux aussi progressent et, qui sait, on devrait pouvoir espérer des indexations sémantiques, pour tous les gens qui font des thèses sur les huîtres redoutables au Vietnam…

  4. Bonjour

    Qui peut le plus, peut le moins. :-)
    En théorie.

    Si on dispose de l’OCR, on dispose aussi de l’image, non.

    Alors pourquoi mettre un frein aux volontés du lecteur ???
    N’est-ce pas à lui de choisir ?

    Et, on le sait bien, pour l’instant le but est à la quantité, massive… et peut-être bien sans logique arrêtée, sauf celle de savoir qui a la plus grosse collection.
    Au génération suivante de pratiquer le déverminage des scories typographiques et autres.

    Si l’intérêt y est.

    C’est vrai que récupérer l’ancien paraît plus intéressant dans la mission de sauvegarde documentaire… en oubliant, quelque peu, que le récent disparaît encore plus vite que l’ancien.
    Mais c’est vrai, j’oubliais que Google n’océrise que les documents en bon état dans les bibliothèques. Et là, on peut se demander pourquoi pas les autres, « trop détériorés » est-il en lien avec « très utilisés » par le passé ? N’y a-t-il pas quelques statistiques de prêts à moudre pour connaître les documents très utilisés, et ceux qui ont représentés, représentent un réel intérêt actuel pour les lecteurs. Ceci, bien sûr, sans présager de l’avenir.

    Bref, de mon point de vue.
    Les textes les plus utilisés seront les textes les plus corrigés. Quitte à mettre un contrôle par des bibliothécaires pour un texte trop souvent corrigés aux mêmes lignes… une fois validé par le bibliothécaire, les lignes sont verrouillées dans la base de données, et c’est fini.
    Pourquoi les bibliothécaires ? Parce qu’ils n’ont ni l’intention de nuire à leur public, ni d’être pris en flagrant délit de mensonge ou d’occultation sur un texte.

    Et comme ils ne sont pas assez nombreux, nos bibliothécaires, les corrections devraient émaner directement du public de lecteurs.
    Une modification, sur un texte rare, c’est probablement une excellente modification. Sur un sujet sensible, il faudrait y regarder à deux fois.

    Comme on en est à la mode du 2.0, on peut aussi soumettre la correction à notation par les lecteurs. Bonne, pas bonne.
    Le bibliothécaire étant le seul à pouvoir trancher, puisqu’il est le garant de la collection.

    Laisser des paquets incompréhensibles dans les textes océrisés ?

    Bien sûr.
    Parce qu’ils sont là en attendant mieux.
    Correction et validation évoquées ci-dessus.

    Pour votre texte, l’OCR que vous avez utilisé est un OCR généraliste, or, pour ce genre de texte, il faut utilise un OCR spécialisé (dictionnaire ancien français), avec une image de qualité correcte (soit dépoussiérée des points noirs, ou mieux : en niveaux de gris, puisque les OCR récents savent mieux travailler dans ces résolutions.)

    Cela n’empêchera pas les OCR d’avoir un taux de réussite de 99 %.
    Mais 99 % de réussite, c’est toujours 1 % d’erreur.
    Ce qui signifie 15 erreurs pour une page normale. (une page = 1500 caractères)

    Autrement dit, 15 mots incorrects.
    Sinon, un balayage par le dictionnaire aurait dû les rétablir dans leur bonne forme.

    L’OCR est une chose.
    La reconnaissance des mots une deuxième.
    La recherche du mot dans un dictionnaire, « spécialisé » suivant le cas, en est une autre.

    Un bon OCR est un logiciel qui, en rencontrant une difficulté sur un mot, met ce mot de côté. Dans un dictionnaire des termes non reconnus, avec l’image indéchiffrable en parallèle.

    Et un OCR encore plus intelligent serait un logiciel qui, en ne trouvant pas le mot dans le dictionnaire, vous affiche directement l’image à la place de l’infâme gribouillis de lettres que l’on a couramment. Tout en conservant ce fameux dictionnaire gribouillis et image en parallèle, en sachant fort bien qu’un mot inconnu a bien des chances de se répéter tout du long. Et d’une seule correction, on corrige tout le texte.

    Passons aussi sur le fait qu’un mot est forcément un découpage d’un nombre fini de syllabes, et donc « e$cmbatdnsJmlescri4ejfr’oydbles » n’est pas un mot correct.

    Oui, il nécessite une correction.
    Et là, une petite case indiquant : « erreur, mot ou expression non reconnue, à corriger par le lecteur. » me paraît nécessaire pour la transparence de la lecture.
    Et pour permettre au lecteur l’auto-correction, s’il a le temps.

    En attendant un OCR sémantique.

    Et lorsque nous en seront là, l’intelligence Artificielle ne sera pas loin non plus.

    Gommer les mots suspects n’est donc pas la bonne solution.
    Puisque c’est un choix arbitraire, qui empêche la correction.
    Et qui peut représenter un danger réel… car il faut définir ce qu’est un mot suspect.
    Et là, quand on gomme, sans rectification possible, on ouvre une faille… puisque les index fonctionnent avec des mots. En effacer un l’enlèverait donc aussi des index.

    « 1984 » de George Orwell est présent pour nous rappeler ce qui s’ensuit lorsqu’on gomme quelque chose.

    Bien cordialement
    Bernard Majour

  5. Bonjour

    Sachant que les aveugles utilisent des tables vocales (pour écouter le texte brut), l’OCR brut ne leur est pas d’une grande utilité s’il est de mauvaise qualité.

    C’est pourquoi, quand on répond au mail d’un aveugle, il faut enlever les « > » .
    Parce que l’appareil leur lit tout, sans exception, même les caractères séparés lorsqu’ils ne composent pas un mot reconnue dans le dictionnaire vocal.

    Même si votre réponse était sans doute une plaisanterie, elle nous rappelle que tout le monde a le droit d’accéder à l’information.

    Merci pour ce rappel.

    Bien cordialement
    Bernard Majour

  6. Merci à tous. Si je résume vos remarques :
    – oui pour afficher l’OCR brut
    – en l’accompagnant d’informations techniques sur sa création et la qualité obtenue
    – en permettant aux utilisateurs de corriger le résultat.

    Vous suggérez aussi de faire appel à des logiciels plus performants, avec des dictionnaires spécifiques aux textes anciens, et des traitements de recherche adaptés.

    En ce qui concerne les handicapés visuels, il faut quand même noter que l’OCR brut est toujours mieux que des images, totalement inaccessibles pour eux. L’oreille humaine (comme l’oeil d’ailleurs) est capable de supporter un certain taux d’erreur et de rétablir le sens du texte. Bien sûr faut pas exagérer et prendre des exemples aussi désastreux que celui que je vous ai mis ci-dessus.

    Dernière référence trouvée sur Digitization 101: Optimizing OCR Accuracy on Older Documents: A Study of Scan Mode, File Enhancement, and Software Products.

Les commentaires sont fermés.