Visualiser des documents numériques

Ces derniers temps, on m’a demandé à plusieurs reprises de réfléchir à des maquettes de visualisation de documents numériques et j’ai aussi eu l’occasion de donner mon avis sur celle (entre autres) de l’OCA, Open library. Alors je crois qu’il faut que je m’explique sur ce concept d‘exemple inquiétant d’un phénomène de résistance des mentalités à la technologie qui n’est sans doute que transitoire – même si Got fait ça déjà si bien dans son Du livre électronique au wiki, que tout le monde a déjà cité mais qu’importe, un peu de pub, ça fait pas de mal.

Donc première chose, un visualiseur se conçoit de manière générique. A moins que la politique documentaire de votre projet de numérisation soit de sélectionner uniquement les in-8° imprimés en Times corps 12, il faut prévoir que vous allez devoir potentiellement donner accès à des trucs aussi affreusement divers que de des journaux (en colonnes et en très petits caractères sur des très grandes feuilles), des manuscrits et des livres anciens (en couleur pour que ce soit joli, et en détail pour que ce soit utilisable), des dictionnaires (écrits tout petit sur du papier tout fin), toutes sortes de feuillets dépliants de tableaux et autres trucs de taille non conventionnelle cachés entre deux pages, et pourquoi pas des photos, des estampes, des objets en 3D et même, horreur suprême, des plans qu’on ne peut pas lire si on ne peut pas les retourner à 180°.
Donc un bon visualiseur doit être capable de zoomer, de retourner l’image, de s’adapter à la taille du document pour la lecture à l’écran et pour l’impression : c’est un minimum, on peut faire toutes ces choses avec un livre.
Vous pouvez toujours contourner le problème en proposant une interface de consultation dédiée pour chaque type de document. C’est le modèle anglosaxon, à découvrir aux USA, en Angleterre ou encore en Ecosse.

Deuxièmement, un visualiseur doit être capable de gérer ce qu’on peut appeler le paratexte, et les métadonnées. Ce paratexte, c’est notamment la pagination de l’ouvrage, sa table des matières, sa notice… C’est plutôt pas mal dans la Bibliothèque virtuelle des humanistes.
Cela impose aussi d’être capable de gérer différentes versions d’un même document et là, ça se complique. Si le document est indexé en plein texte, cela veut dire qu’on en a une version textuelle. De plus en plus, on propose une version textuelle imparfaite, obtenue automatiquement par OCR, et "cachée" virtuellement derrière l’image, ce qui signifie qu’on enregistre toutes les coordonnées des mots sur la page pour être capable de savoir précisément sur quelle page et à quel endroit de la page se trouve un mot. C’est ce qui permet de souligner joliment (enfin chacun ses goûts) en jaune l’occurence trouvée, ou de placer un petit post-it entre les pages virtuelles de notre livre numérique.
Dans ce cas-là, on peut faire de la recherche plein-texte, mais on ne bénéficie pas de toutes les choses merveilleuses qu’on pourrait faire si on avait accès à cette version textuelle : la copier pour pouvoir la transcrire plus rapidement, jeter un oeil pour évaluer la pertinence de l’OCR et donc le risque de "silence" sur sa requête… On voit ça correctement mis en oeuvre dans Persée.
Si on a une version textuelle corrigée du texte en plus de l’image, une véritable numérisation en mode texte, ça se complique encore plus. Il faut imaginer les outils qui permettent de passer en souplesse d’une version à l’autre, suivant les besoins. Pour voir ce que ça donne quand c’est bien fait, rendez-vous sur les Cartulaires numérisés d’Ile de France.
Je ne parlerai même pas de la question de la visualisation d’une numérisation uniquement en mode texte, il y aurait trop à dire.

Enfin, en vrac (ou en confiture ;-) parmi les choses auxquelles il faut penser :

  • une référence simple et efficace, c’est à dire de belles URL propres, si possible sur chaque page du document numérisé
  • la gestion des documents multiples, les périodiques par exemple ; réfléchir comment on va passer d’un numéro au suivant
  • les possibilités d’impression et de téléchargement d’une page, de plusieurs pages
  • les outils d’aperçus ou de feuilletage, comme les vignettes ou les mosaïques
  • les documents complexes, qui mélangent de l’image et du son, ou du son et du texte, ou autre chose
  • l’accessibilité pour les personnes handicapées
  • etc.

Je ne parlerai pas non plus du problème de l’accès aux documents qui est en amont de la visualisation proprement dite, mais il y aurait beaucoup à dire.

Pour finir sur cette question essentielle de savoir ce qui me chiffonne dans les interfaces qui "imitent" le livre, comme Open library, c’est que d’emblée elles rejettent la spécificité du média numérique.
Le tourne-page, la visualisation en double page, les petits post-its et autres gadgets sont en fait très rassurant pour des gens qui sont peu familiarisés avec Internet, ce qui est le cas de la plupart des décideurs qui tiennent les cordons de la bourse. Mais en proposant une telle interface, on se prive des possibilités ouvertes par le nouveau média pour manipuler le document. On se prive également des possibilités ouvertes par l’ancien média, puisqu’en essayant de copier ce qui était performant sur le papier, on perd de la qualité et de la lisibilité sur l’écran.
Il ne nous reste plus qu’à télécharger l’ouvrage entier en PDF ce qui, à mes yeux, est certes une fonctionnalité indispensable mais aussi un constat d’échec sur l’appropriation du numérique.

Je ne suis pas résolument opposée à l’interface que propose Open library. Je trouve juste qu’elle met de manière excessive l’accent sur des fonctionnalités qui ne sont finalement que "jolies", aux dépends de ce qu’elle pourrait proposer d’efficace, de pertinent et de pratique. Mais je suis consciente que c’est peut-être moi qui ai tort.

Je vous recommande tout de même la lecture de deux articles sympathiques en relation plus ou moins avec ce sujet :

2 réflexions sur “Visualiser des documents numériques

  1. Merci Manue pour ces explications. Je comprends mieux ta position. Mais ne la partage toujours pas sur ce point précis : « Le tourne-page, la visualisation en double page, les petits post-its et autres gadgets sont en fait très rassurant pour des gens qui sont peu familiarisés avec Internet ».
    Il a fallu quelques siècles pour que ces dispositifs cognitifs arrivent à maturité et on n’a quand même pas encore trouvé beaucoup mieux. Ce qui n’empêche pas de les améliorer ou, comme le souligne ton billet (et celui de Got, d’accord) de les « augmenter » de quelques spécificités du média numérique. Mais de là à me faire traiter de « cordon de la bourse » ;-)

  2. Olivier, je ne parlais pas de toi en disant « cordons de la bourse » ;-) mais des tutelles, des décideurs politiques qui souvent n’acceptent de subventionner les projets de numérisation que si on leur montre ce genre de choses. Je suis d’accord aussi sur le fait que le livre est l’aboutissement de longs tâtonnements et qu’il a atteint ainsi une sorte d’apogée de ses fonctionnalités. C’est pour cela que je dis que j’ai peut-être tort, mais l’avenir nous le dira.

Les commentaires sont fermés.