L’avenir de l’OCR : l’HCR

« HCR » pourrait vouloir dire « human character recognition », eh oui, je vous présente aujourd’hui un projet révolutionnaire qui permet de faire de la reconnaissance automatique de caractères en utilisant… des gens.

Le projet reCAPTCHA est tout à fait emblématique du pragmatisme à l’américaine qui caractérise des projets comme Internet Archive. Il part d’un genre de syllogisme :

quand on numérise, on a du mal avec l’OCR parce que certains mots ne peuvent être reconnus que par des humains
sur le web, on utilise des mots qui ne peuvent être reconnus que par des humains pour faire barrage aux robots
on n’a qu’à utiliser les mêmes humains pour reconnaître les deux types de mots !

Donc voilà, on va proposer aux blogs et autres sites de ce genre d’utiliser comme antispam un captcha à deux mots : le premier, connu par l’ordinateur, permet de faire barrage aux robots, et le second est un mot extrait de la numérisation d’IA qu’on n’arrive pas à océriser. Si plusieurs utilisateurs "numérisent" le même mot, celui-ci est validé dans IA.

Amis blogueurs qui avez des problèmes de spam de commentaires (ce n’est pas mon cas parce que je suis sous Lodel, mais bon, ça va peut-être changer, enfin bref), faites une bonne action : utilisez un captcha reCaptcha. C’est gratuit, c’est un web service, c’est accessible et en plus, ça génère de la numérisation.

Merci à Dom, et aussi à Catalogablog.

4 réactions sur “L’avenir de l’OCR : l’HCR”

C’est amrrant, ça me fait penser à ça :

Turque mécanique d’Amazon (anglais)

et aussi à ça

Turque mécanique (anglais)

Sinon ce qui te protège en utilisant Lodel, c’est plus que le logiciel est très rarement utilisé pour faire des blogs et qu’il n’a donc pas d’intérêt pour les spammeurs.

Pas mal, même si le second captcha ne sert à rien, sinon de prétexte. Je comprends le raisonnement « Quitte à saisir un mot, autant en saisir deux », OK. Mais on pourrait aussi imaginer d’avoir un site pour les gens qui ont tous les jours 5 secondes disponibles au bureau (voire 5 minutes, ou plus si on est un peu réaliste) : si chaque personne un tant soit peu intéressée par la numérisation du patrimoine mondial accepte de donner 5 secondes par jour, il y a fort à parier que l’HCR (enfin, disons plutôt la saisie bénévole) avancerait très vite.

C’est rare de trouver des projets où on peut diviser unitairement des tâches jusqu’à un niveau très fin. En général, 3600 personnes qui travaillent 10 secondes ça ne fait pas 10 heures de travail d’une sepersonne, mais là je crois que si…

En tout cas, je veux bien être volontaire pour donner 10 secondes tous les matins…

ok Cyril je note ton acte de volontariat ;-) mais sérieusement, je crois que l’idée c’est de s’appuyer sur le captcha parce que les gens font vraiment l’effort, quand ils saisissent un captcha, de rentrer l’information correcte et pertinente (sinon leur commentaire est rejeté). Ce qui n’est pas toujours le cas d’un bénévole pas bien réveillé !

Bon, finalement, mon idée est super ancienne : Elle a déjà été utilisé sur le projet Gutenberg, avec les Distributed Proofreaders, autant dire dès la préhistoire des bibliothèques numériques (et même du net).

Les commentaires sont fermés.

Figoblog

Un blog sur Internet, la bibliothéconomie et la confiture de figues

L’avenir de l’OCR : l’HCR

4 réactions sur “L’avenir de l’OCR : l’HCR”