L’avenir de l’OCR : l’HCR

« HCR » pourrait vouloir dire « human character recognition », eh oui, je vous présente aujourd’hui un projet révolutionnaire qui permet de faire de la reconnaissance automatique de caractères en utilisant… des gens.

Le projet reCAPTCHA est tout à fait emblématique du pragmatisme à l’américaine qui caractérise des projets comme Internet Archive. Il part d’un genre de syllogisme :

  • quand on numérise, on a du mal avec l’OCR parce que certains mots ne peuvent être reconnus que par des humains
  • sur le web, on utilise des mots qui ne peuvent être reconnus que par des humains pour faire barrage aux robots
  • on n’a qu’à utiliser les mêmes humains pour reconnaître les deux types de mots !

Donc voilà, on va proposer aux blogs et autres sites de ce genre d’utiliser comme antispam un captcha à deux mots : le premier, connu par l’ordinateur, permet de faire barrage aux robots, et le second est un mot extrait de la numérisation d’IA qu’on n’arrive pas à océriser. Si plusieurs utilisateurs "numérisent" le même mot, celui-ci est validé dans IA.

Amis blogueurs qui avez des problèmes de spam de commentaires (ce n’est pas mon cas parce que je suis sous Lodel, mais bon, ça va peut-être changer, enfin bref), faites une bonne action : utilisez un captcha reCaptcha. C’est gratuit, c’est un web service, c’est accessible et en plus, ça génère de la numérisation.

Merci à Dom, et aussi à Catalogablog.

4 réflexions sur “L’avenir de l’OCR : l’HCR

  1. Pas mal, même si le second captcha ne sert à rien, sinon de prétexte. Je comprends le raisonnement « Quitte à saisir un mot, autant en saisir deux », OK. Mais on pourrait aussi imaginer d’avoir un site pour les gens qui ont tous les jours 5 secondes disponibles au bureau (voire 5 minutes, ou plus si on est un peu réaliste) : si chaque personne un tant soit peu intéressée par la numérisation du patrimoine mondial accepte de donner 5 secondes par jour, il y a fort à parier que l’HCR (enfin, disons plutôt la saisie bénévole) avancerait très vite.

    C’est rare de trouver des projets où on peut diviser unitairement des tâches jusqu’à un niveau très fin. En général, 3600 personnes qui travaillent 10 secondes ça ne fait pas 10 heures de travail d’une sepersonne, mais là je crois que si…

    En tout cas, je veux bien être volontaire pour donner 10 secondes tous les matins…

  2. ok Cyril je note ton acte de volontariat ;-) mais sérieusement, je crois que l’idée c’est de s’appuyer sur le captcha parce que les gens font vraiment l’effort, quand ils saisissent un captcha, de rentrer l’information correcte et pertinente (sinon leur commentaire est rejeté). Ce qui n’est pas toujours le cas d’un bénévole pas bien réveillé !

  3. Bon, finalement, mon idée est super ancienne : Elle a déjà été utilisé sur le projet Gutenberg, avec les Distributed Proofreaders, autant dire dès la préhistoire des bibliothèques numériques (et même du net).

Les commentaires sont fermés.