Réflexions sur Google et la numérisation

Bon, je ne reviendrai pas sur cette annonce qu’on a vu mille fois depuis hier : Google a lancé un projet en partenariat avec des bibliothèques américaines, notamment Harvard et Stanford, pour numériser leurs livres.

Je voudrais juste soulever quelques réflexions et questions, glanées de ça de là sur le Web et ailleurs, concernant cet étonnant projet.

La question des droits d’auteur. Les gens des métiers du livre, en entandant cette annonce, s’inquiètent aussitôt du respect de leurs droits quant à la diffusion de ces livres sur le Web. Pas d’inquiétude : Google se contente de les indexer et de les chercher, mais on ne pourra en voir que de petites portions, voire rien du tout. En ce qui me concerne, mon inquiétude est contraire. Google est un acteur commercial et il se protège de la complexité des droits d’auteurs par une politique restrictive, soit. Mais ces fonds appartiennent à des bibliothèques ; ils sont publics ; elles auraient pu choisir de les mettre en libre accès sur le Web. La délégation de la numérisation change le modèle naturel de communication sur le Web des bibliothèques, et ça m’inquiète.

La délégation. Justement, à propos de la délégation, Hubert a raison de se demander quelles seront les modalités de cette délégation. Qu’une bibliothèque accepte lorsqu’on lui offre sur un plateau l’utopie de la reproduction absolue, je peux le comprendre. Mais il faudrait encore qu’elle ne se retrouve pas ensuite, comme c’est parfois le cas aujourd’hui avec les microfilms, obligée de payer pour disposer de ses propres collections.

Le côté obscur de la force. Ce côté obscur, ce n’est pas seulement la situation de monopole, mais aussi le manque de transparence. Le Web est un espace de chaos et la méthode de Google est sans doute la meilleure pour l’appréhender. Mais indexer pêle-mêle en plein texte des millions de livres, c’est vouloir appliquer le chaos à un matériau par nature structuré. C’est aussi nier les "épaules des géants" revendiquées par GoogleScholar, et le travail fait par les bibliothèques numériques pour essayer de donner à leurs lecteurs des contenus plus structurés, plus accessibles, plus fonctionnels. La transparence, c’est aussi garantir au lecteur l’origine de ce qu’il consulte, lui offrir la traçabilité, le contexte, et la fidélité à l’original qui n’est possible qu’avec le mode image. Numériser, ce n’est pas éditer : numériser impose de respecter l’histoire du matériau, parce qu’elle fait partie de sa compréhension de manière intrinsèque. Je suis curieuse de savoir ce que Google répondra à cela.

Le chaos et la science. Je ne vois pas comment les chercheurs pourront se passer de cette transparence et de cette mise en contexte. Je ne vois pas non plus comment la méthode du chaos peut entrer en adéquation avec un monde scientifique de plus en plus spécialisé. Quand la sérendipité augmente, la précision diminue. Et puis, finalement, la recherche plein-texte sans la consultation, c’est comme de donner les clefs des magasins à un lecteur, puis lui interdire d’allumer la lumière.

Le débat est ouvert.

3 réflexions sur “Réflexions sur Google et la numérisation

  1. Je n’ai pas assez creusé la question pour avoir la réponse aux modalités précises de cette numérisation par délégation, mais je partage les mêmes inquiétudes que toi.

    La réponse de Google semble clair et la plupart des projets de cette société sont les mêmes : indexer le contenu intégral pour permettre au gens de « trouver » – même si on sait que le contenu intégral ne suffira pas à trouver s’il n’est pas structuré. Le modèle de recherche de Google, pour l’instant est un modèle de recherche par audience et il n’y a pas de raison que cela change. Google permettra de trouver les documents les plus consultés : c’est son modèle, il n’y a aucune raison qu’il ne s’applique pas à tous les domaines que Google veut couvrir.

    Mais Google semble se moquer de la délivrance du document final : payant, gratuit, etc. Ce qui compte pour lui, c’est d’avoir accès au document même si le public lui n’y a pas accès ou s’il y a une barrière à sa délivrance. En fait, Google déporte le problème de l’accès en traitant seulement l’indexation. Ca arrange tout le monde et évite de se poser des questions. Seulement qui dit que demain, quand Google renverra des gens vers votre document qu’il a indexé et que ces gens payeront pour avoir accès à votre document, Google ne demandera pas une quote part (modèle affiliation) ? Pour ma part, je suis très surpris du blanc-seing qu’éditeurs ou bibliothécaires semblent (je dis bien semble, je n’ai pas lu les contrats) donner à Google en raison de son succès ou de son audience et de l’audience qu’il procure en retour. Ce qui m’inquiète surtout c’est que la solution de Google semble les soulager et leur évite d’intégrer ces problématiques à leurs cas. Ce devrait être aux éditeurs d’indexer leur livres et de faire référencer cette indexation par Google.

    Manue, tu devrais plus souvent nous servir des billets de cet accabit !

  2. Bonjour et meilleurs voeux 2005
    Vous écrivez :
    « Quand la sérendipité augmente, la précision diminue. »
    Ce n’est pas si simple.
    Je vous invite à consulter les ouvrages de Jacques Perriault, l’un des fondateurs du concept de « sérendipité ». Il indique bien que le chaos est le signe de notre modernité et qu’il est nécessaire de s’y adapter, notamment par la formation à la recherche documentaire,
    mais aussi par le travail coopératif, le travail collectif (entre professionnels ou à fins de formation) afin justement d’etre plus efficace face à la complexité.
    Jacques Perriault est à mon sens l’un des grands penseurs de la documentation.

    De même, MADJID IHADJADENE, l’un des élèves de Jacques Perriault, indique bien, de nombreuses études quantitatives à l’appui, que la plupart des usagers de bibliothèques n’utilisent pas les fonctionnalités des logiciels documentaires, tout au plus un ou 2 mots-clés sous Google.
    Voilà, je pense qu’il faut s’adapter au chaos actuel, et Google le fait très bien, en attendant le… web sémantique et XML, mais là, nous n’en sommes qu’au début et Google a de beaux jours devant lui.

    Sincèrement, je pense que Google fait beaucoup pour la profession, bien plus que certaines intitution à fonds… publics (perdus ?)
    ;-)

  3. Merci pour ces précisions sur la sérendipité.
    Je tiens à dire que je ne conteste pas les méthodes de Google pour indexer le Web et le chaos auquel, je suis d’accord, il nous faut nous habituer. Je m’interroge simplement sur la pertinence de généraliser ce chaos en l’appliquant à des documents naturellement structurés.
    En outre, vous écrivez avec raison : « la plupart des usagers de bibliothèques n’utilisent pas les fonctionnalités des logiciels documentaires, tout au plus un ou 2 mots-clés sous Google ». Est-ce une raison pour priver ceux qui les utilisent (même s’ils sont peu nombreux) de ces fonctionnalités qui existent naturellement dans les documents imprimés ?
    Plus la structuration et le nombre de métadonnées est important, plus le nombre d’usagers concernés est faible. Ce paradoxe est bien connu. C’est se battre pour la liberté et le choix que de continuer à tenir compte de ces usagers spécifiques, et ne pas céder à la pression de la masse. Enfin c’est mon avis.
    Les logiciels documentaires ne donnent sans doute pas les meilleures armes aux usagers avancés et il faut continuer à progresser, dans le sens du Web sémantique certainement. Mais je pense qu’un des rôles des bibliothèques publiques face à Google est de réfléchir en termes de spécificité et de diversité des usages, et pas en termes d’impact et de nombre de connexions.
    Sinon les bibliothèques n’achèteraient plus de poésie.

Les commentaires sont fermés.