Réflexions sur Google et la numérisation

Bon, je ne reviendrai pas sur cette annonce qu’on a vu mille fois depuis hier : Google a lancé un projet en partenariat avec des bibliothèques américaines, notamment Harvard et Stanford, pour numériser leurs livres.

Je voudrais juste soulever quelques réflexions et questions, glanées de ça de là sur le Web et ailleurs, concernant cet étonnant projet.

La question des droits d’auteur. Les gens des métiers du livre, en entandant cette annonce, s’inquiètent aussitôt du respect de leurs droits quant à la diffusion de ces livres sur le Web. Pas d’inquiétude : Google se contente de les indexer et de les chercher, mais on ne pourra en voir que de petites portions, voire rien du tout. En ce qui me concerne, mon inquiétude est contraire. Google est un acteur commercial et il se protège de la complexité des droits d’auteurs par une politique restrictive, soit. Mais ces fonds appartiennent à des bibliothèques ; ils sont publics ; elles auraient pu choisir de les mettre en libre accès sur le Web. La délégation de la numérisation change le modèle naturel de communication sur le Web des bibliothèques, et ça m’inquiète.

La délégation. Justement, à propos de la délégation, Hubert a raison de se demander quelles seront les modalités de cette délégation. Qu’une bibliothèque accepte lorsqu’on lui offre sur un plateau l’utopie de la reproduction absolue, je peux le comprendre. Mais il faudrait encore qu’elle ne se retrouve pas ensuite, comme c’est parfois le cas aujourd’hui avec les microfilms, obligée de payer pour disposer de ses propres collections.

Le côté obscur de la force. Ce côté obscur, ce n’est pas seulement la situation de monopole, mais aussi le manque de transparence. Le Web est un espace de chaos et la méthode de Google est sans doute la meilleure pour l’appréhender. Mais indexer pêle-mêle en plein texte des millions de livres, c’est vouloir appliquer le chaos à un matériau par nature structuré. C’est aussi nier les "épaules des géants" revendiquées par GoogleScholar, et le travail fait par les bibliothèques numériques pour essayer de donner à leurs lecteurs des contenus plus structurés, plus accessibles, plus fonctionnels. La transparence, c’est aussi garantir au lecteur l’origine de ce qu’il consulte, lui offrir la traçabilité, le contexte, et la fidélité à l’original qui n’est possible qu’avec le mode image. Numériser, ce n’est pas éditer : numériser impose de respecter l’histoire du matériau, parce qu’elle fait partie de sa compréhension de manière intrinsèque. Je suis curieuse de savoir ce que Google répondra à cela.

Le chaos et la science. Je ne vois pas comment les chercheurs pourront se passer de cette transparence et de cette mise en contexte. Je ne vois pas non plus comment la méthode du chaos peut entrer en adéquation avec un monde scientifique de plus en plus spécialisé. Quand la sérendipité augmente, la précision diminue. Et puis, finalement, la recherche plein-texte sans la consultation, c’est comme de donner les clefs des magasins à un lecteur, puis lui interdire d’allumer la lumière.

Le débat est ouvert.

Un peu d’histoire

Que ferait-on aujourd’hui sans le Web, on se le demande. Ca fait bizarre de se dire qu’en si peu de temps, il a pris une telle importance dans notre vie aussi bien personnelle que professionnelle.

Et pourtant, il y avait bien un univers "en ligne" avant le Web et même avant l’Internet, et les bibliothécaires en faisaient partie. On retrouve dans Searcher une série de témoignages à travers 8 articles intitulés : Online before the Internet. Ce qui nous rappelle un temps où "être en ligne", c’était interroger Medline avec Dialog (j’ai encore appris ça à l’enssib ce qui prouve peut-être que je ne suis pas aussi jeune que j’en ai l’air ;-) et même avant Dialog (c’est loin).

Et puis naquit le Web, et il fallut bien trouver un moyen de savoir ce qu’il y avait dedans. C’est ce que nous relate cette petite histoire des moteurs de recherche, depuis l’avant-robots en 1990 jusqu’à la naissance de Google en 1998. Eh oui, c’était hier…

Merci à ResourceShelf et à Totem.

La photo : toujours Tolède, dans le cloître du monastère San Juan de los Reyes.

La quête de l’image (suite)

J’ai attendu cela patiemment. La suite de l’article "Looking for good art" , de David Mattison, dont je parlais dans un ancien billet, a été mise en ligne.

Ces trois articles en libre accès constituent un must-read de la recherche d’images sur le Web.

Le premier explore les bases de données et les outils de références, publics ou privés.

Le second aborde les moteurs de recherche d’images par reconnaissance des formes et autres. Je ne résiste pas à citer, en la déformant soigneusement par suppression de son contexte, cette phrase de la conclusion :

"…accurate, valid, standardized, and detailed metadata is the key to the precision recall of online art images."

Le troisième fait le tour par pays des ressources de collections d’images nationales en ligne. Les bibliothèques françaises ne sont pas oubliées. A noter, un encart sur l’utilisation juridique de ces images, et des références bibliographiques.

Je note quand même des recoupements dans les liens proposés dans ces trois articles, chacun représentant plutôt une approche différente qu’une liste de ressources étanche par rapport aux autres. En gros, les trois approches sont

  • les types de ressources,
  • les types de recherche / d’indexation
  • les grandes collections publiques, par pays.

Google scholar et au-delà

La sortie de Google scholar a fait à peu près autant de bruit dans la blogosphère qu’un coup de gong, et j’hésitais à me lancer dans le chorus général car je ne voyais pas trop quoi apporter de plus. J’ai donc décidé d’attendre que le soufflet retombe un peu mais je crois en effet qu’il serait dommage de ne pas en parler du tout.

Google scholar est un outil assez époustouflant. Si on cherche des ressources dans un domaine « académique » quel qu’il soit, surtout anglophone mais pas seulement, il ne nous déçoit pas et fournit la même profusion de ressources que Google tout court.

Il fait un pas de plus dans la classification des ressources, en différenciant les références d’articles (citations), les articles en pdf, les livres.

Il fait un pas de plus dans la description bibliographique, en donnant dès le premier écran, le titre mais aussi l’auteur, la date, la source, les différentes versions.

Il fait un pas de plus dans la mise en contexte, en donnant le nombre de citations connues pour chaque référence, et en permettant d’afficher ces citations avec leurs propres citations.

Il fait un pas de plus dans la localisation, en proposant, pour les livres, de les trouver dans une bibliothèque, voire dans votre bibliothèque s’il identifie d’où vous vous connectez.

Bon, allez, je l’avoue, la première fois que j’ai testé Google scholar, je me suis dit, oups, vite, je dois trouver un autre métier ! Je pense finalement qu’il serait bon de relativiser cet emportement. Il y a quand même des limites, les mêmes que depuis toujours, la principale étant l’opacité de Google scholar. Quelles ressources indexe-t-il ? quel algorithme utilise-t-il pour les classer ? Et la stratégie googelienne de plus en plus englobante d’omniprésence n’a rien de rassurant.

Et puis, une des choses qui me frappe le plus, c’est le déferlement d’outils dérivés que crée la sortie de ce nouveau moteur. On connaissait déjà les outils développés par Ingenta, et le comparateur de recherches de Peter Jasco. J’ajouterais une extension pour Firefox qui utilise OpenURL pour lier les notices (oui, maintenant je pense qu’on peut dire ça) de Google scholar au plein texte des articles, extension qu’on peut adapter à son propore résolveur OpenURL au prix d’un peu de geekerie (merci à Library Stuff). Et encore le bookmarklet de visualisation qui permet d’avoir une vue graphique des articles citant une référence (merci à Open Access News).

Ma conclusion, toute personnelle, c’est que Google scholar est sans aucun doute un outil formidable. C’est aussi et peut-être surtout, le « bruit du gong », celui qui va nous réveiller, nous sortir de nos acquis, nous rappeler que non, nous n’avons pas fait le tour de la question du signalement des ressources validées, et que non, nous ne pouvons pas nous passer de l’innovation permanente et quotidienne qui conditionne notre survie.

Web services sans savon

La façon "canonique" de faire des Web services utilise le protocole SOAP (qui signifie, bien évidemment, "Simple Object Access Protocol" et certainement pas "savon"). Il existe néanmoins un groupe d’irréductibles geeks qui luttent encore et toujours contre cette architecture complexe et font des Web services avec REST (qui signifie, je vous le donne en mille, non pas qu’on a envie de se reposer mais " Representational State Transfer").

Alors qu’est-ce que REST ? Pour faire horriblement abrégé, REST consiste à utiliser les protocoles « ordinaires » du Web : HTTP avec ses méthodes GET et POST, sans recourir à l’enveloppe XML spécifique qu’est SOAP.

Grâce à cette définition très étendue des Web services, vous faîtes peut-être (sûrement, même) des Web services sans le savoir : OAI, RSS, par exemple, fonctionnent par l’envoi d’informations en XML via des services de type REST.

On trouve chez Eric Lease Morgan un récapitulatif du séminaire Web services d’OCLC en 2002. Bon ça date un peu, mais ça explique bien de quoi on parle, et il reprend les différents types de Web services qu’on utilise déjà en bibliothèque. Il réexplique même la différence entre SOAP et REST au cas où la mienne vous paraîtrait insuffisante.

Par ailleurs, sur XML.com, on peut lire aussi quelques articles sur REST en forme presque de pamphlet :

Un autre jour je parlerai de SOAP.

Spécifier la qualité des spécifications de qualité

C’est bon de savoir dans les pires moments de la vie que le W3C est là, qu’il pense à nous et qu’il s’occupe de spécifier des normes belles, ouvertes, accessibles à tous et de qualité.

Le W3C pense même à donner des spécifications pour savoir comment faire de bonnes spécifications : c’est le QA Framework: Specification Guidelines.

Les gens qui font des normes et des standards ont intérêt à feuilleter ce document. C’est Karl qui le dit.

Et on a jusqu’au 28 janvier pour lui dire ce qu’on en pense.

Figues et facettes

En lisant chez Outils froids ce billet sur la navigation multi-facettes, je me suis souvenue que j’avais deux trois petites choses en réserve sur ce sujet :

Qu’est-ce qu’une interface à facettes ? en fait, c’est simplement un moyen de naviguer dans une collection d’objets en rafinant de plus en plus sa requête ou en croisant des critères.

On peut en avoir une bonne idée sur le site Epicurious où il est question de recettes de cuisine. On part d’une liste d’aliments, de types de plats, d’occasions, de méthodes de préparation, etc. On choisit un critère, et ensuite on précise sa requête en fonction des choix disponibles – l’avantage étant sans aucun doute d’avoir à chaque étape une vue globale des choix effectivement disponibles.

Alors, est-ce vraiment utile ? Eh bien, si on cherche un plat pour les enfants qui se fait en automne au four avec du chocolat, c’est une méthode intéressante. Par contre, si on cherche n’importe quoi avec des figues dedans, l’utilisation du moteur de recherche reste indéniablement plus efficace.

Et quand même, 129 recettes avec des figues, ça mérite aussi d’être noté.

OCLC très « tendance »

OCLC nous refait le coup des tendances, cette fois-ci avec les "formats" (au sens extrêment large du terme, en bibliothèque on parlerait de "types de documents" je suppose).

Le rapport 2004 Information Format Trends: Content, Not Containers montre que les internautes ont tendance à se soucier de moins en moins de la forme de ce qu’ils consultent, et de plus en plus de son contenu.

Parmi les grandes tendances analysées, on peut noter l’explosion de la masse de contenus, le phénomène des blogs, le micropayement (pour la musique notamment), la convergence des technologies…

Et à la fin, on trouve aussi un petit glossaire des nouveaux mots de l’année, à connaître absolument pour être sûr d’être très « tendance » !

(Merci à RessourceShelf)

3, 2, 1, moteur !

Lecture du jour : un article d’Alexandre Serres : Recherche d’information sur Internet : où en sommes-nous, où allons-nous ?. Il fait le point sur les outils de recherche documentaire sur Internet, avec une approche très accessible qui permet de comprendre le minimum d’enjeux techniques nécessaires (cela s’adresse aux documentalistes de CDI).

Pour en savoir plus sur l’utilisation des moteurs de recherche aujourd’hui, on peut consulter cette étude sur les usages des moteurs de recherche.

Et pour se souvenir qu’il ne faut pas se contenter d’utiliser un seul moteur (on est des professionnels que diable), même si c’est lui qui donne les meilleurs résultats, voici un exemple d’outil intéressant : OJOSE (Online JOurnals Search Engine) permet de mener une recherche sur les principaux périodiques en ligne, incluant des bases bibliographiques comme celles de l’INIST, aussi bien que des revues en ligne, et même Amazon et Google. On peut regretter qu’on ne puisse pas interroger plus d’une ressource à la fois, mais le fait d’avoir une interface unique peut parfois rendre des services quand même…

Merci à Open Access News, et à JLR peut-être hélas pour la dernière fois.

La quête de l’image

Chercher des images sur le Web peut être un casse-tête (à moins de faire une recherche bidon genre dis, Google, trouve-moi des images de figues).

Heureusement, des gens y travaillent pour nous.

Tous les historiens de l’image, les historiens de l’art (non ce n’est pas la même chose), les gens qui numérisent des images ou ont des fonds d’images dans leurs bibliotèques devraient lire cet article de David Mattison intitulé : Looking for Good Art: Web Resources and Image Databases, Part 1. Une incroyable, démentielle liste de ressources sur les images (en histoire de l’art, mais aussi les agences photos commerciales, etc). Oui, vous avez bien lu : "part 1", on se demande vraiment ce qu’il va pouvoir ajouter encore…

Plus anecdotique, un petit article en espagnol, s’adressant aux photographes, qui donnent quelques pistes sur la façon dont on lit les images.

Enfin dans un autre genre, pour les gens qui cherchent des images à utiliser pour le design de leur site Web, en particulier des images libres : Blue Vertigo est une mine. Merci à … NikO ENCORE !