La numérisation de masse

"Mass digitization" : voici un des sujets de cogitation en ce moment aux US. Ils englobent là-dedans les projets googeliens, OCAesques et MSNiques.
Un peu d’historique n’est pas inutile pour rappeler que si en France nous travaillons depuis plus de 10 ans à une numérisation encyclopédique de livres en vue d’atteindre une masse critique (moins critique que celle de Google certes ;-), dans les pays anglosaxons c’est plutôt une logique de collection qui a dominé les initiatives de numérisation, donc avec une forte dimension patrimoniale et dans certains cas éditoriale.
La numérisation de masse, tel que définie par Google&Co, constitue donc pour eux une vraie rupture alors que pour nous ce serait plutôt un changement d’échelle.

Karen Coyle a écrit sur ce sujet un article qui a l’air intéressant mais il est en accès payant. On en trouve des extraits sur OA news et sur Archivalia.

On peut lire également les remarques de J. Esposito, qui propose quatre exigences de base (requirements)à l’égard de ce type de projets :

  • adopter une approche « archivistique » (moi j’aurais dit « patrimoniale », c’est-à-dire dans le respect de l’authenticité de la source)
  • numériser des éditions récentes avec un appareil éditorial adapté pour les étudiants (ici ça se discute, il y a le problème des droits bien sûr, mais aussi une évolution à envisager – un monde où les chercheurs construiraient leurs éditions directement en ligne à partir de la numérisation…)
  • présenter les documents dans un environnement permettant les annotations et les commentaires (quelle bonne idée:-)
  • permettre aux machines de travailler sur le contenu : data mining, extraction d’information.

Pour conclure il remarque qu’aucun des grands projets de numérisation de masse actuels ne respecte ces 4 exigences. Ce que Jill traduit par la question suivante : les projets de numérisation de masse devront-ils être refaits ?

Le problème avec la masse, c’est que plus elle augmente, plus la qualité baisse. Il faudrait pourtant réussir à réconcilier les deux, au moins pour la création des fac-similés image pour ne pas avoir à refaire la numérisation. Les traitements (OCR par exemple) seront refaits de toute façon car leur performance s’améliorera avec le temps. Donc on devrait se focaliser sur deux tâches essentielles qui nous éviteront d’avoir à ressortir les originaux « analogiques » de nos magasins dans 10 ans :

  • la qualité et la fiabilité de la numérisation des images
  • la conservation des images numériques sur le long terme.

3 réflexions sur “La numérisation de masse

  1. Il est exact que Google ne s’est jamais présenté comme une « bibliothèque numérique ». Cependant, ils numérisent des fonds de bibliothèques. La question est donc de savoir si ces bibliothèques pourront se contenter, pour leurs besoins propres, de la numérisation faite par Google (qui leur en donne une copie), ou si elles devront la refaire dans quelques années avec d’autres normes de qualité.
    L’objectif de la numérisation est bel et bien essentiel, il faut que je fasse un billet là-dessus.

  2. En tout cas pour l’heure, les bibliothèques partenaires du programme Google Book Search ne déboursent pas un kopeck pour obtenir une copie du fonds numérisé…

    Alors quelle qu’en soit la qualité, le rapport qualité / prix est imbattable ! Et si elles doivent reprendre le boulot dans quelques années, elle bénéficieront des progrès techniques et de la baisse vertigineuse des coûts. Tout bénef pour elles.

    C’est tout bénef pour le contribuable, aussi.

  3. La « numérisation de masse » est un moyen et non une fin. Le hic, c’est qu’il a beaucoup de malentendus sur les objectifs respectifs de Google (le projet Book Search dans ses versions bibliothèque ou éditeur) et de la BNuE par exemple — les projets de MS et de l’OCA me semblent encore plus flous dans leurs objectifs…

    S’agit-il d’offrir au public une collection numérique en ligne, comme Gallica ou le futur projet de la BNuE ou bien s’agit-il d’expérimenter et de rendre viable un nouveau mode d’accès aux collections, totalement inédit, via l’indexation généralisée des collections et leur fouille plein texte, comme le propose le projet Google Book Search ?

    Il me semble assez évident que ladite « numérisation de masse » ne répond pas nécessairement aux mêmes critères dans les deux cas et que les exigences prioritaires peuvent être assez différentes selon le cas… Non ?

    Les critères énoncés par J. Esposito correspondent plutôt à ceux d’une véritable bibliothèque numérique — les deux premiers en tout cas, les deux autres pourraient être relativement accessoires selon moi.

    Mais dès lors que le but est d’abord de mettre au point un nouveau mode d’accès aux collections et impose pour ce faire, l’indexation généralisé et systématique du corpus, les critères peuvent être très, très différents…

    D’ailleurs à ma connaissance, Google n’a jamais prétendu construire une ‘bibliothèque numérique’ (là je vais me faire incendier :-). Sauf pour ce qui concerne le domaine public bien entendu… L’innovation de Google Book Search réside plutôt dans l’enrichissement des modes d’accès aux collections et non dans les collections elles-mêmes !

    Il me semble qu’il y a là une incompréhension majeure entre les différents acteurs en présence et là aussi, la source de vaines polémiques (le droit d’auteur, la touffe, le bouquet…) et un bon nombre de procès d’intention inutiles (alors qu’on ferait mieux de coopérer et d’expérimenter à mon sens).

    Cela dit, je partage à 1oo% vos conclusions Manue sur l’objectif primordial de la sauvegarde en mode image. Comme je l’avais déjà expliqué, ailleurs, il y a belle lurette*, le mode image et le mode texte, loin de se concurrencer ou de s’opposer, se consolident mutuellement en réalité. L’un passe par l’autre (on a besoin de l’image pour faire de la reconnaissance optique) et vice-versa (le facsimilé a une fonction de validation et de certification des éditions dans une approche patrimoniale).

    Voilà ce que je peux en dire, si toutefois la version BETA de Lodel 2.0 me laisse passer — clap 3ème…

    Pierre Schweitzer
    projet @folio

    * : oulala, ça nous rajeunit pas tout ça :
    http://www.etudes-francaises.net/entretiens/schweitzer.htm

Les commentaires sont fermés.