Figoblog Un blog sur Internet, la bibliothéconomie et la confiture de figues

L'avenir de l'OCR : l'HCR

"HCR" pourrait vouloir dire "human character recognition", eh oui, je vous présente aujourd'hui un projet révolutionnaire qui permet de faire de la reconnaissance automatique de caractères en utilisant... des gens.

Le projet reCAPTCHA est tout à fait emblématique du pragmatisme à l'américaine qui caractérise des projets comme Internet Archive. Il part d'un genre de syllogisme :

  • quand on numérise, on a du mal avec l'OCR parce que certains mots ne peuvent être reconnus que par des humains
  • sur le web, on utilise des mots qui ne peuvent être reconnus que par des humains pour faire barrage aux robots
  • on n'a qu'à utiliser les mêmes humains pour reconnaître les deux types de mots !

Donc voilà, on va proposer aux blogs et autres sites de ce genre d'utiliser comme antispam un captcha à deux mots : le premier, connu par l'ordinateur, permet de faire barrage aux robots, et le second est un mot extrait de la numérisation d'IA qu'on n'arrive pas à océriser. Si plusieurs utilisateurs "numérisent" le même mot, celui-ci est validé dans IA.

Amis blogueurs qui avez des problèmes de spam de commentaires (ce n'est pas mon cas parce que je suis sous Lodel, mais bon, ça va peut-être changer, enfin bref), faites une bonne action : utilisez un captcha reCaptcha. C'est gratuit, c'est un web service, c'est accessible et en plus, ça génère de la

Par Manue le 22 juin, 2007 - 09:36 dans

Presse U.S.

La Library of Congress a mis en ligne le site Chronicling America consacré aux journaux anciens.

C'est le fruit d'un projet qu'on suit depuis un moment, le NDNP (National digital newspaper program) - à ne pas confondre bien évidemment avec le NDIIPP qui, lui, porte sur la conservation numérique.

Le "plus" : bien sûr on peut chercher en plein texte dans ces journaux, mais surtout le visualiseur est carrément bluffant.

Le "moins" : cette espèce de granularité à la page. Evidemment avec la presse ça simplifie la vie, je suis bien placée pour le savoir, mais ça fait un peu bâclé.

Merci à 10KY blog.

Par Manue le 20 juin, 2007 - 22:02 dans

Livre dans ta Face

Du côté de nos amis biblioblogueurs anglosaxons, j'observe depuis quelques temps un certain "buzz" autour du réseau social Facebook. Un buzz à vocation bibliothéconomique, indéniablement ; d'ailleurs la première fois que j'en ai entendu parler ça devait être à ELAG.

En fait, je n'ai jamais été très branchée réseaux sociaux ; à part une courte expérience sur Ning dans la continuité des biblioblogs, je ne me suis jamais inscrite au moindre réseau auparavant. Donc voilà, Facebook, je tente ou plutôt, j'explore.

En fait ce qui a attiré mon attention sur Facebooks c'est un autre outil, Libguides. Il s'agit d'un système de publication qui permet de fabriquer facilement des descriptions de collections dans une style "2.0", comme par exemple ça : Finding Newspapers. Vous remarquerez le côté "humain" du bibliothécaire, dont on peut voir la photo à côté de son oeuvre et à qui on peut laisser un message même en temps réel : un service qui autant que je puisse en juger n'existe pas dans une bibliothèque de la vraie vie parce que 1. les bibliothécaires ne signent pas personnellement leurs outils de recherche et 2. la consultation de l'outil et la rencontre avec le bibliothécaire sont souvent des phénomènes asynchrones.

En outre, ce système de publication de guides est Facebook-proof, ce qui semble être un gros

Par Manue le 14 juin, 2007 - 20:39 dans

Bibliothèques et Web sémantique : le projet VIAF

Le projet VIAF, Virtual International Authority File, est un projet d'OCLC research qui vise à l'origine à aligner des listes d'autorités (notamment sur les noms propres) en vue de constituer une base de référence internationale.

Les premiers à tester ont été la Library of Congress et la Deutsche Bibliothek, qui travaillaient donc à l'alignement de leurs thésaurus respectifs ainsi que c'était décrit ici (ppt) ou .

Dès le départ, le projet affichait des intentions intéressantes en termes d'utilisation des technologies du Web sémantique. Il était aussi question de choses plus traditionnelles mais sur lesquelles on se posait aussi des questions, comme l'utilisation de l'OAI pour échanger des notices d'autorités (alors que, soyons clair, à première vue ce n'est pas fait pour ça).
De plus, cela s'inscrivait dans la continuité de services intéressants offerts par OCLC autour des autorités comme Worldcat Identities qui est un bon exemple de ce qu'on peut obtenir en "faisant travailler les données" comme diraient Lorcan et ses amis.

Aujourd'hui, d'après cette communication prévue à l'IFLA 2007 à Durban, le projet s'élargit avec de nouveaux partenaires, et le discours se radicalise assez nettement autour de l'idée de Web sémantique : ce n'est plus présenté comme une possibilité éventuelle de seconde main, mais comme le coeur du

Par Manue le 13 juin, 2007 - 16:51 dans

Le bibliothécaire

Image associée au billet

Grave question pour un bibliothécaire que de savoir comment répondre en société à cette question anodine, "et toi, tu fais quoi dans la vie ?", question qui débouche inévitablement sur la suivante "ah bon, et c'est un métier, ça, de ranger des livres ?"

Moi-même il m'arrive assez souvent dans mon cadre familial de rencontrer des gens qui sont, disons, peu sensibilisés à l'utilité du métier de bibliothécaire et des bibliothèques en général ; pour eux ça doit être un peu comme les piscines, c'est sale et plein de pauvres et ils préfèrent avoir la leur chez eux parce qu'en plus ça fait assez joli.
J'ai toujours rêvé d'avoir une tirade extraordinaire à leur sortir sur mon métier et voilà que je la trouve, où ça, je vous le donne en mille, dans un livre.
La voici :

ELLE : Dites-moi ce que c'est, un bibliothécaire.
LUI : ... Une sorte de communisme, sans l'idéologie ou Marx ou toutes ces conneries. Notre métier, c'est de distribuer du savoir. Gracieusement. Entrez, s'il vous plaît, entrez, prenez un peu de savoir gratis, non, ce n'est pas plafonné, continuez, vous pouvez vous en gaver, non, ce n'est pas une arnaque, ce n'est pas un échantillon gratuit pour vous appâter et vous facturer plus tard, ou bien pour vous tapisser le cerveau de logos et de slogans. Un bibliothécaire n'a pas un statut social très élevé, et

Par Manue le 9 juin, 2007 - 08:57 dans

Jeu-concours sur la préservation du numérique

Vous vous intéressez à la préservation du numérique ?
Vous êtes un geek (ou vous en avez un à portée de main) ?
Vous avez un peu de temps libre devant vous ?
Vous avez besoin d'un peu d'argent de poche (entre 500 et 3000 euros) ?

C'est peut-être le moment pour vous de participer au Digital Preservation Challenge proposé par le projet européen DPE sur la préservation numérique.
Le principe : on vous propose 6 scénarios dans lesquels vous aurez à récupérer des fichiers dans des formats plus ou moins exotiques et obsolètes, les analyser, trouver ou construire un migrateur ou un émulateur, et déterminer des stratégies de préservation scalables pour l'avenir. Chaque proposition sera évaluée non seulement en fonction du résultat obtenu, mais de la description des étapes qui ont permis d'y arriver (car comme chacun sait, préserver c'est avant tout savoir documenter). Depêchez-vous : vous avez jusqu'au 15 juillet.

L'idée de lancer un jeu concours est assez amusante et à mon avis c'est sympa d'essayer de créer un "buzz" autour d'un sujet aussi austère que la préservation des documents numériques. Comme l'objectif d'un projet européen est aussi d'amener à une prise de conscience (to raise awareness comme ils disent), je pense que ce genre d'initiatives ne peut qu'aider grandement.

Un seul regret : tous les scénarios sont orientés sur

Par Manue le 31 mai, 2007 - 22:43 dans

ELAG 2007 : "workshops"

Voici la suite du début.

A ELAG, les workshops se déroulent en parallèle, en plusieurs sessions sur plusieurs jours. On s'inscrit à un workshop et un seul, que l'on suit de bout en bout ; heureusement pour notre curiosité, tous les workshops font l'objet d'un rapport de 15 mn environ le dernier jour.

Universitat de Barcelona

Conformément au thème de la conférence (je le rapelle : library 2.0), la plupart des workshop avaient un thème très "2.0".
Ainsi, les discussions ont porté sur Amazon et Google, le eLearning en bibliothèque, la fourniture de documents, le tagging, les blogs et les wikis, etc. Tous ces workshops ont été présentés et discutés en même temps. L'idée générale était de les utiliser comme des boîtes à idées pour discuter toutes ces fonctions et émettre des recommandations plus ou moins symboliques suivant les groupes. J'ai noté quelques ressources intéressantes comme le service Books to Books qui permet aux bibliothèques de mettre facilement en place un service de numérisation à la demande.
Finalement, le plus intéressant (d'après les compte-rendus) était le workshop-titre : Library 2.0, what's in a name dont le produit (car chaque workshop débouche sur un "outcome") était un blog, créé avant la conférence et alimenté durant les sessions de travail.
C'était amusant de voir ces bibliothécaires (d'un certain âge, il

Par Manue le 23 mai, 2007 - 16:08 dans

Valoriser les collections numériques

Quelques méthodes intéressantes ont récemment surgi sur le Web pour valoriser des collections numériques. Cela n'a plus rien à voir avec la logique très construite et même, très bibliothéconomique, des expositions virtuelles ou dossiers documentaires qu'on a l'habitude de voir dans les bibliothèques numériques aussi bien francophones qu'anglo-saxonnes.

Du côté de la numérisation de masse, nous avons deux blogs : celui de Google books search et celui d'Internet Archive. Point commun de ces deux projets de numérisation : ce sont des entrepôts de documents, qui ne sont pas construits a priori dans une logique de politique documentaire. Dans ces conditions, la valorisation sous forme de blogs est appropriée. Elle se caractérise par la recherche de "perles", en relation ou non avec l'actualité, dans le gisement documentaire qui se trouve à disposition.

Du côté des bibliothèques, l'article de Dlib sur l'utilisation de Wikipedia pour valoriser les collections numériques a déjà été cité par Marlène : il s'agit de se positionner dans le flux des usages, d'aller au-devant des étudiants dans le site qu'ils consultent au lieu d'attendre qu'ils viennent à la bibliothèque numérique. Le projet de bibliothèque francophone dans Second Life (vu sur bib 2.0) s'inscrit à mes yeux dans la même logique, aller au-devant des usagers, là où ils se

Par Manue le 22 mai, 2007 - 22:34 dans

Your Archives

Créez "vos archives" : telle est la proposition des Archives Nationales de Grande-Bretagne aux internautes à travers ce wiki.

Ce wiki permet aux usagers des archives britanniques, après enregistrement sur le site, d'enrichir les notices des inventaires (avant/après), de faire des transcriptions, ou de rentrer des informations utiles sur n'importe quel sujet de recherche en liaison avec les archives anglaises, nationales ou non.

On peut saluer le pragmatisme typiquement anglo-saxon du projet :

  • il utilise le logiciel Mediawiki, du coup ça "ressemble" à wikipédia et de fait, cela acquiert un côté rassurant, parce que connu
  • le système de modération est hyper-simple (il faut être enregistré, mais n'importe qui peut s'enregistrer après avoir lu les conditions d'utilisation). On peut également signaler un abus.

Le site n'est pas très rempli pour l'instant mais à mon avis c'est une expérience à suivre.

Vu chez Peter Scott.

Par Manue le 21 mai, 2007 - 22:16 dans

ELAG 2007 : "papers"

ELAG est un groupe européen qui rassemble des personnes intéressées par l'informatique documentaire en bibliothèque. Il se réunit tous les ans au printemps dans une ville européenne différente pour aborder des sujets d'actualité qui tournent traditionnellement beaucoup autour du SIGB. Mais, les bibliothèques étant ce qu'elles sont, la conférence s'est également ouverte ces dernières années au numérique et à la question des services offerts sur le Web, et donc cette année proposait pour thème : Libraries 2.0.

Comme dans toute conférence ELAG, il y avait trois grandes parties :

  • les "papers", conférences "plénières" à laquelle tout le monde (un peu plus de 100 personnes) assistait - c'est ce dont je vais parler ici
  • les "progress reports", ou lecture commentée des revues d'avancement envoyées par les participants sur leur institution : un exercice très formel et sans grand intérêt si vous voulez mon avis, donc je n'en dirai pas plus mais vous pouvez les consulter
  • les "workshops", des travaux en groupe qui feront l'objet d'un autre billet.

Donc voici mon compte-rendu des "papers". La plupart des liens pointent vers les présentations au format PDF.

Ressources électroniques

Un des sujets les plus "classiques" de mon point de vue dans les conférences plénières était la question des ressources électroniques et

Par Manue le 15 mai, 2007 - 18:26 dans
Design Figoblog 2008 - Image from http://www.europeana.eu - http://photo.rmn.fr : Codex Vindobonensis, series nova 2644: folio 4 verso