L’avenir de l’OCR : l’HCR

« HCR » pourrait vouloir dire « human character recognition », eh oui, je vous présente aujourd’hui un projet révolutionnaire qui permet de faire de la reconnaissance automatique de caractères en utilisant… des gens.

Le projet reCAPTCHA est tout à fait emblématique du pragmatisme à l’américaine qui caractérise des projets comme Internet Archive. Il part d’un genre de syllogisme :

  • quand on numérise, on a du mal avec l’OCR parce que certains mots ne peuvent être reconnus que par des humains
  • sur le web, on utilise des mots qui ne peuvent être reconnus que par des humains pour faire barrage aux robots
  • on n’a qu’à utiliser les mêmes humains pour reconnaître les deux types de mots !

Donc voilà, on va proposer aux blogs et autres sites de ce genre d’utiliser comme antispam un captcha à deux mots : le premier, connu par l’ordinateur, permet de faire barrage aux robots, et le second est un mot extrait de la numérisation d’IA qu’on n’arrive pas à océriser. Si plusieurs utilisateurs "numérisent" le même mot, celui-ci est validé dans IA.

Amis blogueurs qui avez des problèmes de spam de commentaires (ce n’est pas mon cas parce que je suis sous Lodel, mais bon, ça va peut-être changer, enfin bref), faites une bonne action : utilisez un captcha reCaptcha. C’est gratuit, c’est un web service, c’est accessible et en plus, ça génère de la numérisation.

Merci à Dom, et aussi à Catalogablog.

Livre dans ta Face

Du côté de nos amis biblioblogueurs anglosaxons, j’observe depuis quelques temps un certain "buzz" autour du réseau social Facebook. Un buzz à vocation bibliothéconomique, indéniablement ; d’ailleurs la première fois que j’en ai entendu parler ça devait être à ELAG.

En fait, je n’ai jamais été très branchée réseaux sociaux ; à part une courte expérience sur Ning dans la continuité des biblioblogs, je ne me suis jamais inscrite au moindre réseau auparavant. Donc voilà, Facebook, je tente ou plutôt, j’explore.

En fait ce qui a attiré mon attention sur Facebooks c’est un autre outil, Libguides. Il s’agit d’un système de publication qui permet de fabriquer facilement des descriptions de collections dans une style "2.0", comme par exemple ça : Finding Newspapers. Vous remarquerez le côté "humain" du bibliothécaire, dont on peut voir la photo à côté de son oeuvre et à qui on peut laisser un message même en temps réel : un service qui autant que je puisse en juger n’existe pas dans une bibliothèque de la vraie vie parce que 1. les bibliothécaires ne signent pas personnellement leurs outils de recherche et 2. la consultation de l’outil et la rencontre avec le bibliothécaire sont souvent des phénomènes asynchrones.

En outre, ce système de publication de guides est Facebook-proof, ce qui semble être un gros argument de vente aux States ; sans doute parce que l’utilisation de Facebook est assez naturelle chez les étudiants qui, dans Facebook, peuvent retrouver leur université, leurs copains et leurs profs en un clic en entrant leur adresse e-mail.

Pour nous bibliothécaires français, l’intérêt de Facebook reste très limité, nos universités et nos entreprises locales n’étant encore que faiblement représentées. Quant à Libguides, guère mieux parce que cela me semble assez éloigné de la façon dont on aborde la valorisation des collections chez nous. Bref rien de tout cela ne vaut un bon vieux blog ;-)

Merci à Peter Scott ainsi qu’à Matthieu pour les tuyaux donnés "in RL".

Your Archives

Créez "vos archives" : telle est la proposition des Archives Nationales de Grande-Bretagne aux internautes à travers ce wiki.

Ce wiki permet aux usagers des archives britanniques, après enregistrement sur le site, d’enrichir les notices des inventaires (avant/après), de faire des transcriptions, ou de rentrer des informations utiles sur n’importe quel sujet de recherche en liaison avec les archives anglaises, nationales ou non.

On peut saluer le pragmatisme typiquement anglo-saxon du projet :

  • il utilise le logiciel Mediawiki, du coup ça « ressemble » à wikipédia et de fait, cela acquiert un côté rassurant, parce que connu
  • le système de modération est hyper-simple (il faut être enregistré, mais n’importe qui peut s’enregistrer après avoir lu les conditions d’utilisation). On peut également signaler un abus.

Le site n’est pas très rempli pour l’instant mais à mon avis c’est une expérience à suivre.

Vu chez Peter Scott.

Lamentations

Repéré sur Open access news, ce billet de Peter Brantley, bibliothécaire (et même "director of digital library technologies") à l’Université de Californie, à compléter obligatoirement par ces explications.

Parterre de jonquilles

Il s’agit des relations entre l’université en question et le programme Google books, auquel elle a été l’une des premières à adhérer. Peter nous fait part de ses regrets, des « erreurs » qui ont été faites. Ses lamentations ne portent ni sur le projet lui-même, ni sur la participation de l’UC, ni sur les problèmes techniques ou les doutes sur la propriété des images numérisées.

Elles portent sur le rôle essentiel de médiation que, dans son empressement à accepter la généreuse proposition qui lui était faite, la bibliothèque a trop vite abdiqué.

Les bibliothèques, avec leur capacité à se mettre en réseau, auraient dû prendre l’initiative, donner le ton de la conversation, porter le débat sur la place publique sur des sujets comme les droits d’auteurs, le respect de la vie privée ou les usages de l’information pour l’enseignement et la recherche. Elles auraient dû – elles devraient – être un interlocuteur privilégié pour les éditeurs. Elles devraient piloter la collaboration autour de la numérisation, au lieu de la subir.

Une lecture édifiante que ces deux billets.

Préservation numérique « pour les nuls »

La préservation des documents numériques est aujourd’hui l’affaire de chacun : en témoigne le site Save my memories de sensibilisation très "grand public" au problème. Son objectif est d’aider les particuliers à comprendre cette problématique et à sauvegarder notamment leur photos de famille pour les générations futures…

C’est quand même assez poussé, on y trouve des conseils pour bien classer ses photos et faire des sauvegardes, mais aussi des comparaisons de supports, des indications sur l’obsolescence logicielle et technologique, et même des consignes pour restaurer son patrimoine en cas de désastre.

En plus, ça ne gâche rien, le site est joli mais sobre, pédagogique mais pas donneur de leçons.

Comme quoi, on peut faire de la vulgarisation même sur ce genre de sujets arides. Et il faut le faire, sinon bientôt les particuliers anglosaxons seront plus au fait de ces problèmes que certaines de nos institutions.

Vu sur Digitization 101.

28% de taggeurs

D’après ce rapport du Pew Internet Project sur le tagging, 28% des internautes américains auraient déjà utilisé les "tags" pour caractériser des ressources.

Le profil de ces taggeurs ? plutôt jeunes (moins de 40 ans), hommes et femmes, blancs et noirs… leur principal point commun c’est d’être des « early adopters », amateurs éclairés de technologies nouvelles.

Le rapport contient une interview intéressante dans laquelle sont discutés l’avenir du tagging, ses avantages et ses inconvénients.

Tout cela c’est bien joli, mais aujourd’hui, à mon avis en France on est très loin des 28% en question. La plupart des sites qui proposent des interfaces de tagging, comme del.icio.us ou flickr, n’ont pas encore traduit leurs interfaces en français et ne sont adoptés que par une frange très restreinte des internautes : des blogueurs, des geeks et autres internautes 2.0…
Alors si une bibliothèque veut lancer un tel service, elle se heurte à un mur d’incompréhension général : à quoi ça sert, quelle différence avec le bon vieux « panier » de mon SIGB préféré, etc.

Si on veut que les « tags » entrent dans les bibliothèques en France, il va donc falloir, à mon avis…

  • trouver une traduction valable pour « tag » : en français c’est affreusement connoté, on imagine tous ces jeunes des banlieues avec leurs bombes de peinture
  • mobiliser les utilisateurs : et en priorité ceux qui ont une pratique du web 2.0, donc les jeunes
  • prouver la valeur du service par une adoption massive et la réalisation d’entreprises d’indexation qui auraient été manifestement impossibles autrement.

Alors, est-ce jouable ? l’avenir nous le dira… peut-être…

Le livre libre

Il y a quelques temps je m’étais pas mal amusée sur les sites de musique libre, et voilà que je viens de découvrir la même chose pour le livre.

In libro veritas est un site sur lequel on peut publier et lire gratuitement ; on y trouve aussi bien des auteurs du domaine public que des livres d’amateurs.

Quelque part entre la bibliothèque numérique, l’éditeur à compte d’auteur, la plateforme de blog et le libraire 2.0, il y a In libro veritas. Tous les contenus sont en creative commons.

Ce site m’intrigue. Quelqu’un connaît ? quelqu’un l’a déjà pratiqué ?

Merci à Bloginfo.

L’image et l’obole

Si comme moi vous vous intéressez aux images, j’ai trois visites indispensables à vous proposer.

Il y a peu, une très belle tribune a été publiée par André Gunthert sur le problème de l’image et de sa diffusion dans un monde où on re-patrimonialise (si vous permettez) des images libres de droits. Un texte, lorsqu’il tombe dans le domaine public, tout le monde se l’approprie, le copie, le réutilise. Alors que : "une image ne quitte le territoire du droit d’auteur que pour entrer dans celui du droit patrimonial : elle appartient toujours à une collection ou un ayant droit qui en octroie les reproductions selon son bon vouloir.". Un état de fait qui pourrait finir par avoir raison des études en histoire de l’art.
Je ne saurais trop vous recommander le fil RSS des Actualités de la recherche visuelle qui sont en général une mine et un plaisir de lecture.

Ailleurs, KA de la Boîte à images cherche un modèle économique pour son blog qui lui prend trop de temps. Contrairement à beaucoup, il n’a pas choisi les Google Ads, il a choisi l’obole : demander à chacun de ses (nombreux) lecteurs de lui verser un euro symbolique. La somme de toutes ces parties ne le sera pas, elle, symbolique, et lui permettra de continuer à proposer des articles de qualité.
Un euro pour 530 articles d’histoire de l’art et d’analyse de l’image, toutes périodes et tous styles confondus, qui dit mieux ? Je suis curieuse de voir si les internautes accepteront le marché, un marché bien équitable à mon avis.

Le troisième est Bibliodyssey, un blog qui quotidiennement ou presque nous noie sous des séries d’estampes toutes plus magnifiques les unes que les autres, glanées dans les multiples ressources du Web. Sans aucun doute un travail de fourmi que cette recherche des sources (qui sont toujours citées). Donc oui, il y a des Google ads, et on peut aussi verser une obole.
Il y a en aussi pour les amoureux du manuscrit comme dans ce billet, ou pour ceux qui aiment les images sombres et bizarres ici. Les archives de ce blog sont une mine de documentation sur l’image (voyez le nuage de tag en bas).

Voilà, je dédicace ce billet à Dominique V., une nouvelle lectrice ;-)

SL, ma Deuxième Vie

Pas mal de gens en France commencent à parler de Second Life ; si vous n’en avez jamais entendu parler regardez ici, si vous vous demandez à quoi ça sert regardez .

Bon, moi, n’y tenant plus et préférant juger par moi-même, j’y suis allée.

Info Island I main library

Ca, c’est le coeur d’Info Island, l’île des bibliothèques (enfin, une des îles…) : la "main library". Il y a un reference desk mais je n’ai jamais vu personne y tenir permanence (peut-être à cause des heures improbables auxquelles je me connecte par rapport au "Second Life Time").
Enfin, cette rotonde est le bon endroit pour rencontrer des gens. La dernière fois, j’ai recontré des bibliothécaires très sympas qui m’ont fait visiter et depuis j’ai une petite étiquette « librarian friend » au-dessus de mon nom ! C’est comme dans la vraie vie : on se croise, on discute, on se promène ensemble. Sauf que des fois les bibliothécaires s’envolent ou se téléportent, ce qui peut destabiliser.

Health info Island main Library

Ca, c’est la main library de Health info Island, les bibliothèques médicales. Je l’ai choisie comme exemple des services que les bibliothèques peuvent offrir dans Second Life : on peut interroger Pubmed ou Google, écouter des podcasts médicaux, découvrir des infos par sites web ou écrans interposés, et rencontrer un reference librarian à certaines heures.
C’est carrément immense.

Info Island Sci_fi library

Ca c’est la bibliothèque de science-fictions d’Info Island. Elle a pour originalité d’être suspendue, le seul moyen d’y entrer est de s’y téléporter. On y trouve pas seulement des PC mais aussi des livres : en fait des liens vers des sites Web.
Comme beaucoup d’endroits dans Second Life, cela vaut le détour et on peut s’y assoir au coin du feu pour regarder la mer. Il ne reste qu’une seule question : à quoi bon s’assoir au coin du feu dans un logiciel ?

En bref, est-ce qu’on peut dire de Second Life que c’est…

  • un réseau social ? oui, on y recontre des gens, on y rejoint des groupes, on discute, on crée des choses ensemble
  • un jeu ? non, il n’y a pas de but, il n’y a rien à gagner
  • un monde ? oui, on peut s’asseoir au coin du feu… et il y a tant et tant à découvrir, j’avoue ne plus savoir par quel bout le prendre. On peut dépenser pas mal d’argent aussi.
  • une "expérience" ergonomique ? non, à part le fait de voler, ce n’est pas une expérience, et surtout d’un point de vue bibliothéconomique, c’est assez décevant : pas d’expérience de lecture (enfin, je n’en ai pas trouvé pour l’instant), et on trouve surtout des liens vers des sites Web (donc vers l’extérieur de SL)
  • un espace publicitaire ? oui incontestablement, un des premiers trucs qu’on apprend c’est à lire les panneaux publicitaires et il y en a un paquet
  • du Web 2.0 ? ah ah, bonne question à condition de savoir ce qu’est le Web 2.0 !!! en tant que tel pour moi c’est trop "insulaire" pour être du Web 2.0 mais l’emballage de blogs, wikis et groupes flickr qu’il y a autour, lui, est 2.0. Le fait que les bibliothèques y soient est peut-être "bibliothèque 2.0".

Bon je me suis bien amusée, mais si j’avais des copains pour se balader avec moi ce serait encore mieux ;-)

Les siences 2.0

Vous n’avez certainement pas loupé, en décembre, la sortie de la version beta de PLoS One, la nouvelle plateforme de la Public Library of Science.

PLoS one, c’est plus que de l’open access : c’est de l’open access 2.0 ! Selon le communiqué de presse, la grande nouveauté (en dehors de la plateforme elle-même) c’est le système de la validation a posteriori ("post publication peer review"). Cette chose, la validation a posteriori, c’est le vrai "plus" du Web, le fait qu’un document, après sa publication en ligne, peut être discuté, complété, confirmé ou remis en cause par tout le monde, donc logiquement, par les pairs.

Comme sur tous les sites 2.0, on crée un compte ; puis, on peut ajouter des commentaires « ancrés » à un endroit précis d’un article, ou lancer une discussion sur un article. L’interface est très chouette et ergonomique (bon ce serait encore mieux si c’était pas aussi intrusif pour créer le compte, et si ça marchait avec tous les navigateurs, mais on va leur laisser le bénéfice du béta…)

Et puis, tout le contenu est en Creative Commons, et ils ont aussi des fils RSS, des blogs et même des T-shirts… Ca doit être cela, le secret : il faut des T-shirts ;-)