Vendredi, Microsoft a annoncé sa décision d'arrêter ses programmes de numérisation et la fermeture des plateformes Live Search Books et Live Search Academic.
Cette décision a été pas mal commentée : même en français ici.
Vendredi, Microsoft a annoncé sa décision d'arrêter ses programmes de numérisation et la fermeture des plateformes Live Search Books et Live Search Academic.
Cette décision a été pas mal commentée : même en français ici.
Dans cet article, un gars de Google raconte les problèmes de gestion de l'information et du document qu'ils ont rencontrés en mettant en place Google Books Search. On y trouvera des réflexions sur l'OCR, l'analyse de documents, l'extraction de métadonnées, le traitement des images, l'affichage et la visualisation des documents ou extraits de documents, le logiciel libre et la R&D.
Après quelques mois dans le giron de la France sous la forme d'un prototype que vous connaissez probablement (et qui a désormais rejoint l'histoire), Europeana vole maintenant de ses propres ailes au niveau européen.
Difficile question quand on décide de passer une bibliothèque numérique du mode image au mode texte : faut-il, ou non, montrer l'OCR brut aux utilisateurs ?
Oui, parce que des fois, l'OCR brut ça ressemble à ça :
i defon Camp tout herifâ de lances
•sgrands efforts, dont furent affaillis
ennemis ï vi les grands chamaîlHs
e$cmbatdnsJmlescri4ejfr'oydbles
es Vietnam & Huîtres redoutables,,
mhants au choc de nos braues lanàers,
tfout le huride nos rudes piquiers%-
L'université de Michigan a mis en ligne les ouvrages numérisés par Google dans le cadre de leur "partenariat", sur ce site : MBooks.
Je me fais ici l'écho d'un débat vite passé sur la liste biblio-pat (pour les bibliothécaires patrimoniaux, dont je considère que je fais partie même si mon patrimoine est souvent numérique...)
En plus de l'affichage du texte OCRisé, que j'avais mentionné dans la rubrique "en bref" :
Après presque 5 semaines de vacances, il va me falloir un peu de temps pour me remettre de ces émotions et remonter la longue file d'attente de la veille en retard (même si j'en ai purement et simplement abandonné une partie, d'ailleurs j'ai découvert à cette occasion qu'on ne pouvait pas avoir plus de 200 items dans un fil dans Bloglines...).
Quelques méthodes intéressantes ont récemment surgi sur le Web pour valoriser des collections numériques. Cela n'a plus rien à voir avec la logique très construite et même, très bibliothéconomique, des expositions virtuelles ou dossiers documentaires qu'on a l'habitude de voir dans les bibliothèques numériques aussi bien francophones qu'anglo-saxonnes.
Du côté de la numérisation de masse, nous avons deux blogs : celui de Google books search et celui d'Internet Archive. Point commun de ces deux projets de numérisation : ce sont des entrepôts de documents, qui ne sont pas construits a priori dans une logique de politique documentaire. Dans ces conditions, la valorisation sous forme de blogs est appropriée. Elle se caractérise par la recherche de "perles", en relation ou non avec l'actualité, dans le gisement documentaire qui se trouve à disposition.
Du côté des bibliothèques, l'article de Dlib sur l'utilisation de Wikipedia pour valoriser les collections numériques a déjà été cité par Marlène : il s'agit de se positionner dans le flux des usages, d'aller au-devant des étudiants dans le site qu'ils consultent au lieu d'attendre qu'ils viennent à la bibliothèque numérique. Le projet de bibliothèque francophone dans Second Life (vu sur bib 2.0) s'inscrit à mes yeux dans la même logique, aller au-devant des usagers, là où ils se
Le Scribe du XXIe siècle est mi-humain, mi machine.
La machine est une station de numérisation équipée d'un appareil photo numérique, d'une vitre pour aplatir les pages, et d'un logiciel libre, assemblés par Internet Archive. La partie humaine tourne les pages et déclenche les prises de vue dans un silence religieux.
Dans son scriptorium, le Scribe du XXIe siècle reproduit 500 pages de livres en une heure. A Toronto, 13 Scribes ont ainsi reproduit 200 000 ouvrages depuis 2004, et produisent régulièrement 1000 livres numériques par semaine.
Merci à Digitization101.