Figoblog Un blog sur Internet, la bibliothéconomie et la confiture de figues

outils

L'avenir de l'OCR : l'HCR

"HCR" pourrait vouloir dire "human character recognition", eh oui, je vous présente aujourd'hui un projet révolutionnaire qui permet de faire de la reconnaissance automatique de caractères en utilisant... des gens.

Le projet reCAPTCHA est tout à fait emblématique du pragmatisme à l'américaine qui caractérise des projets comme Internet Archive. Il part d'un genre de syllogisme :

  • quand on numérise, on a du mal avec l'OCR parce que certains mots ne peuvent être reconnus que par des humains
  • sur le web, on utilise des mots qui ne peuvent être reconnus que par des humains pour faire barrage aux robots
  • on n'a qu'à utiliser les mêmes humains pour reconnaître les deux types de mots !

Donc voilà, on va proposer aux blogs et autres sites de ce genre d'utiliser comme antispam un captcha à deux mots : le premier, connu par l'ordinateur, permet de faire barrage aux robots, et le second est un mot extrait de la numérisation d'IA qu'on n'arrive pas à océriser. Si plusieurs utilisateurs "numérisent" le même mot, celui-ci est validé dans IA.

Amis blogueurs qui avez des problèmes de spam de commentaires (ce n'est pas mon cas parce que je suis sous Lodel, mais bon, ça va peut-être changer, enfin bref), faites une bonne action : utilisez un captcha reCaptcha. C'est gratuit, c'est un web service, c'est accessible et en plus, ça génère de la

Par Manue le 22 juin, 2007 - 09:36 dans

Livre dans ta Face

Du côté de nos amis biblioblogueurs anglosaxons, j'observe depuis quelques temps un certain "buzz" autour du réseau social Facebook. Un buzz à vocation bibliothéconomique, indéniablement ; d'ailleurs la première fois que j'en ai entendu parler ça devait être à ELAG.

En fait, je n'ai jamais été très branchée réseaux sociaux ; à part une courte expérience sur Ning dans la continuité des biblioblogs, je ne me suis jamais inscrite au moindre réseau auparavant. Donc voilà, Facebook, je tente ou plutôt, j'explore.

En fait ce qui a attiré mon attention sur Facebooks c'est un autre outil, Libguides. Il s'agit d'un système de publication qui permet de fabriquer facilement des descriptions de collections dans une style "2.0", comme par exemple ça : Finding Newspapers. Vous remarquerez le côté "humain" du bibliothécaire, dont on peut voir la photo à côté de son oeuvre et à qui on peut laisser un message même en temps réel : un service qui autant que je puisse en juger n'existe pas dans une bibliothèque de la vraie vie parce que 1. les bibliothécaires ne signent pas personnellement leurs outils de recherche et 2. la consultation de l'outil et la rencontre avec le bibliothécaire sont souvent des phénomènes asynchrones.

En outre, ce système de publication de guides est Facebook-proof, ce qui semble être un gros

Par Manue le 14 juin, 2007 - 20:39 dans

Le Scribe du XXIe siècle

Le Scribe du XXIe siècle est mi-humain, mi machine.

La machine est une station de numérisation équipée d'un appareil photo numérique, d'une vitre pour aplatir les pages, et d'un logiciel libre, assemblés par Internet Archive. La partie humaine tourne les pages et déclenche les prises de vue dans un silence religieux.

Dans son scriptorium, le Scribe du XXIe siècle reproduit 500 pages de livres en une heure. A Toronto, 13 Scribes ont ainsi reproduit 200 000 ouvrages depuis 2004, et produisent régulièrement 1000 livres numériques par semaine.

Merci à Digitization101.

Par Manue le 25 avril, 2007 - 20:42 dans

Worldcat identities

Moi aussi j'avais hâte qu'ils annoncent Worldcat identities.

Lorcan Dempsey nous l'avait montré en avant-première aux entretiens de la BnF. Ca avait l'air chouette. C'est carrément bluffant.

En deux mots, c'est un espèce de mash-up de données sur des auteurs : les livres qu'ils ont écrits, quand il les ont écrits, dans quelle langue, ce qu'on a écrit sur eux...

Je vous laisse découvrir.

Par Manue le 14 février, 2007 - 22:32 dans

SL, ma Deuxième Vie

Pas mal de gens en France commencent à parler de Second Life ; si vous n'en avez jamais entendu parler regardez ici, si vous vous demandez à quoi ça sert regardez .

Bon, moi, n'y tenant plus et préférant juger par moi-même, j'y suis allée.

Info Island I main library

Ca, c'est le coeur d'Info Island, l'île des bibliothèques (enfin, une des îles...) : la "main library". Il y a un reference desk mais je n'ai jamais vu personne y tenir permanence (peut-être à cause des heures improbables auxquelles je me connecte par rapport au "Second Life Time").
Enfin, cette rotonde est le bon endroit pour rencontrer des gens. La dernière fois, j'ai recontré des bibliothécaires très sympas qui m'ont fait visiter et depuis j'ai une petite étiquette "librarian friend" au-dessus de mon nom ! C'est comme dans la vraie vie : on se croise, on discute, on se promène ensemble. Sauf que des fois les bibliothécaires s'envolent ou se téléportent, ce qui peut destabiliser.

Health info Island main Library

Ca, c'est la main library de Health info Island, les bibliothèques médicales. Je l'ai choisie comme exemple des services que les bibliothèques peuvent offrir dans Second Life : on peut interroger Pubmed ou Google, écouter des podcasts médicaux, découvrir des infos par sites web ou écrans interposés, et rencontrer un reference librarian à certaines heures.
C'est carrément immense.

Info Island Sci_fi library

Ca c'est la

Par Manue le 15 janvier, 2007 - 21:39 dans

Le bon grain de l'ivraie

Chiche que j'aborde un sujet dont tout le monde parle : les folksonomies.

Avec les folksonomies en général, et le tagging en particulier, ce qui fait le plus peur aux bibliothécaires, c'est le problème de la qualité. Olivier Le Deuff dans son article décrit bien les problèmes que l'on rencontre en confiant à des utilisateurs inexpérimentés le soin d'indexer des documents.

Je vous suggère de voir comment Google aborde le problème. Un double problème, en fait :

  • on ne sait pas indexer des images et on n'a pas les ressources pour le faire,
  • les utilisateurs peuvent le faire mais ils sont stupides.

Comment contrôler le travail d'utilisateurs incompétents ? Il suffit de les pousser sur la pente glissante qui les entraîne vers le bas.

Pour preuve, ce nouveau service : Google image labeler.

Pour motiver sa communauté d'utilisateurs, Google présente le taguing sous forme de jeu : vous avez un partenaire tiré au hasard et un peu moins d'1 minute pour taguer un maximum d'images. Pour qu'une image soit taguée, il faut que vous et votre partenaire inconnu saisissiez le même tag. A chaque image taguée, vous gagnez 100 points.

Qu'est-ce qu'on gagne ? Rien, mais la rapidité et l'émulation rendent le jeu prenant et il est difficile de s'arrêter. Du coup, les utilisateurs vont taguer plein d'images, et avec des tags supposés plus pertinents puisque

Par Manue le 7 septembre, 2006 - 22:35 dans

Bab-el-ENSSIB

L'enssib vient de sortir un nouveau site d'édition électronique : Babel Edit. Pour l'instant on y trouve les actes d'une rencontre sur l'indexation des ressources pédagogiques numériques, mais à venir, d'après le message de biblio-fr, on y trouvera les actes d'autres journées.

Le site constitue donc un des éléments de la nouvelle "bibliothèque de l'enssib" et turbine avec Lodel ( de même que le Figo et, je viens de l'apprendre, le site de la Sorbonne).

Ce qui est bien de la part de l'enssib & co, c'est de nous montrer qu'il n'y a pas un outil magique qui répond à tous les besoins. Pour faire un blog on utilise un logiciel de blog, pour faire de l'édition électronique on utilise un logiciel d'édition électronique. Et ça marche.

Par Manue le 1 juin, 2006 - 21:37 dans

Changer les catalogues

Les bibliothécaires américains semblent être en train de constater qu'il y a un vrai problème avec les catalogues de bibliothèque actuels, et un sacré besoin d'évolution. Les rapports fleurissent sur le sujet, en voici deux :

J'avoue avoir été carrément déçue par le second. J'aurais peut-être dû lire attentivement les annexes plutôt que de me contenter de parcourir les recommandations, mais globalement, ce qui est proposé me paraît assez peu novateur. Faire de la recherche fédérée, mutualiser le catalogage, mieux intégrer les ressources électroniques, je ne vois pas bien ce qu'il y a de révolutionnaire là-dedans. Enfin le rapport ne cesse de faire référence à un modèle économique abscons suivant lequel il faudrait équilibrer les dépenses liées au catalogage et la "demande" des utilisateurs pour ce "produit".

Le premier est un peu plus ouvert vers les usagers et comporte quelques idées innovantes apparemment un peu plus appronfondies. On y trouve par exemple des réflexions sur les différents formats de métadonnées, l'extraction automatique des descriptions, la recherche plein

Par Manue le 20 avril, 2006 - 19:19 dans

Bureautique en ligne

Si vous ne lisez ni outils froids, ni Fred Cavazza, vous avez pu passer à côté de deux outils qui pourtant valent le détour : Thumbstacks et Writely.

Le premier est un outil qui permet de créer des diaporamas entièrement en ligne. Le résultat est franchement impressionnant au regard de la simplicité de l'outil. Sa seule faiblesse c'est qu'il faut avoir un outil de manipulation d'images à côté, mais sinon c'est vraiment léger et propre.

Le second permet d'importer un fichier depuis un traitement de texte, de le travailler, si besoin de manière collaborative, et de le réexporter soit en HTML, soit en PDF, soit de nouveau dans un format de type traitement de texte. C'est aussi très ergonomique et convaincant.

Pour l'instant je pense qu'il est compliqué de faire entrer ce genre d'outils vraiment dans les pratiques quotidiennes ; mais pour des gens qui comme moi passent sans cesse d'un ordinateur à un autre, cela a peut-être un sens.

Par Manue le 6 mars, 2006 - 23:07 dans

Vidéoconférence

Totem Consult signale ce dossier du Journal du Net euh du Management enfin c'est pareil, sur les réunions virtuelles. On y trouve un tour d'horizon des différentes méthodes pour organiser des vidéoconférences, y compris à travers le Web.

Mais il ne présente que des solutions logicielles assez coûteuses alors que je sais qu'il en existe des plus ouvertes, comme Access Grid, un projet de l'Argonne National Laboratory.

Ce logiciel utilise un système de grid pour permettre de partager des vidéos et des flux audio, mais aussi des applications comme un navigateur web partagé, un diaporama partagé...

Access Grid est vraiment très complet, il ferait presque le café à la pause... en tout cas ça doit être vraiment super si on réussit à le faire marcher. Le problème étant de réussir à le faire marcher, justement. Alors si quelqu'un qui aurait utilisé ce logiciel passe dans le coin, qu'il n'hésite surtout pas à me faire partager ses lumières, cela me rendrait grandement service...

Par Manue le 20 février, 2006 - 19:03 dans
Design Figoblog 2008 - Image from http://www.europeana.eu - http://photo.rmn.fr : Codex Vindobonensis, series nova 2644: folio 4 verso