Dans cet article, un gars de Google raconte les problèmes de gestion de l’information et du document qu’ils ont rencontrés en mettant en place Google Books Search. On y trouvera des réflexions sur l’OCR, l’analyse de documents, l’extraction de métadonnées, le traitement des images, l’affichage et la visualisation des documents ou extraits de documents, le logiciel libre et la R&D.
Dans Wired, on peut consulter un reportage photographique sur la numérisation réalisée par Internet Archive dans le cadre du projet OCA. Noter le côté très artisanal de la chose…
A consulter avec l’autre main : Framework for good digital collections (document du NISO, version 3, décembre 2007) et le probablement déjà cité Preservation in the age of large-scale digitization (Rapport du CLIR, par Oya Rieger de l’université de Cornell).
Sources :
– Lorcan Dempsey
– disruptive library technology jester