Yahoo plus rapide que Google ?

RessourceShelf suivi de près par Constellation W3 signalent cette info : Yahoo indexe désormais le catalogue WorldCat d’OCLC.

Yahoo aurait indexé deux millions de notices en moins d’un mois, alors que Google qui a commencé il ya six mois n’en serait qu’à 500000… Yahoo deviendrait-il un partenaire (plus) fiable pour les bibliothèques ?

Tiens, puisqu’on parle d’OCLC, surtout ne manquez pas de visiter It’s all good, un blog tenu par les trois auteurs du OCLC environmental scan pattern 2003, c’est sympa et riche (et au fait, si vous ne connaissez pas le scan, courez, courez le lire !)

Recherche fédérée

Vue sur Catalogablog, une petite bibliographie sur la recherche fédérée (metasearch en anglais).

Au passage, je signale qu’une BU française a mis en place un service de recherche fédérée avec MetaLib : il s’agit du SCD de Paris III et de son service Virtuose. Il donne accès au catalogue de la bibliothèque, à des bases de données et des revues en ligne (avec accès à distance aux documents pour les membres de l’université), et à d’autres outils gratuits comme Amazon par exemple.

En passant, une autre université parisienne, celle de Paris 5, propose un accès distant à ses ressources electroniques pour les étudiants.

Sympa comme initiatives.

Ce rêve bleu…

Dans le dernier Dlib qui vient de sortir, on peut lire un long article en forme d’appel à contribution, intitulé Search Engine Technology and Digital Libraries : Libraries Need to Discover the Academic Internet. Le titre l’annonce : il s’agit de capitaliser la technologie des moteurs de recherche, assez avancée (on avait remarqué), pour l’appliquer aux bibliothèques, numériques ou pas.

L’auteur défend l’idée qu’il serait dans les missions des bibliothèques aujourd’hui de donner à voir le Web « académique » (on dirait plutôt scientifique en français), non pas en répertoriant des sites Web, non pas en faisant de la recherche fédérée avec des métamoteurs dans des bases distribuées, non pas (même pas) en constituant des entrepôts de métadonnées grâce à l’OAI… mais en indexant.

Bref, un autre Google, mais… en mieux, bien sûr, puisqu’il n’indexerait que des ressources de qualité, duement validées, adaptées à la préservation à long-terme, et pourvues de métadonnées surpuissantes d’une qualité inégalée.

Ce moteur de recherche idéal, tenez-vous bien, il est à notre portée. Il suffirait que tous les bibliothécaires du monde se donnent la main…

Sérieusement. Que nous faudrait-il pour réaliser cette grande oeuvre bibliothéconomique ? Tout d’abord, une coopération internationale et des normes fiables et ouvertes, intéropérables ; ça, pas de problème, on sait très bien le faire. La preuve, toutes les bibliothèques du monde cataloguent en format MARC (lequel au fait, Unimarc ? Marc21 ? Intermarc ? Ibermarc ? UKmarc ?) Ensuite, il faudrait s’approprier les technologies actuelles des moteurs de recherche, faire immédiatement le grand bond de 6 ans qu’a parcouru le Web entre sa version « répertoriée  » et sa version « indexée ». Et aussi, pousser un peu le Web sémantique, et le Grid computing, qui ne sont pas encore tout à fait au point pour ce qu’on voudrait en faire. Enfin améliorer l’OAI, cette technique d’échange primitive. Et se faire de la pub, beaucoup de pub.

On s’étonne quand même de ne trouver qu’une ligne sur les moteurs de recherche libres comme mozdex ou Lucene, dont on attend de voir s’ils valent au fond vraiment quelque chose (entre temps, vous prendrez bien une petite solution propriétaire). On s’étonne aussi de ne pas entendre parler de Virtual Library, Vlib de son petit nom, un projet international d’accès au Web scientifique lancé par Tim Berners Lee lui-même, et qui a laissé derrière lui quelques intiatives vraiment intéressantes.

Ah, c’est bon de savoir que nous, bibliothécaires, nous détenons la Vérité, le Pouvoir et l’Avenir. Faîtes de beaux rêves.

Mise à jour :

De l’accès (et autres questions)

Le CLIR publie un ouvrage collectif sur les tendances qui affectent les bibliothèques, et en particulier la manière dont elles donnent accès aux ressources qui intéressent les chercheurs.

Access in the future tense rassemble six articles, qui abordent en fait aussi bien le problème de la préservation de l’information que celui de l’accès proprement dit (mais comme on le sait, ces deux notions sont aussi indissociables qu’antinomiques pour les bibliothèques…)

L’ouvrage est disponible librement, en texte ou en PDF, et on peut aussi le commander en papier pour 20$.

Moins accessible hélas, le numéro 39 (4e volume, 2004) de Journal of Library Administration est un numéro spécial sur l’accès (plus précisément : Improved Access to Information: Portals, Content Selection, and Digital Information). Il semble que les heureux suscripteurs d’un abonnement à ce journal se régaleront d’articles orientés usagers et services. Les autres se contenteront d’enrichir leur bibliographie.

Enfin, les lecteurs d’Outils Froids ont eu la joie de plonger à l’intérieur de l’esprit des utilisateurs de moteurs de recherche pour y découvrir comment ceux-ci s’orientent dans les listes de résultats. Utile et à mettre en perspective avec nos propres interfaces de recherche : de telles études pourraient bien apporter un coup mortel au mythe de la liste de réponses parfaite, sans bruit ni silence.

Architecture de l’information : qu’est-ce que c’est ?

L’architecture de l’information est un domaine méconnu en France, et en particulier dans les bibliothèques. Pourtant, elle a des affinités certaines avec la bibliothéconomie, et la profession gagnerait à l’intégrer à ses réflexions en termes d’évolution du métier. C’est pourquoi j’ai décidé de m’attaquer une bonne fois à la définition de cette discipline étrange et de ce qu’elle peut nous apporter, à nous les techie librarians.

Définition

L’architecture de l’information a une double origine : un constat et une métaphore.

Un constat : avec le grossissement des sites Web, l’augmentation de la quantité d’information qu’ils contiennent, et la complexification des techniques, il est devenu clair que concevoir un site Web efficace échappe à la compétence des seuls techniciens ou graphistes. Un chaînon manquant apparaît, à l’intersection de la production de contenu (compétences éditoriales) et de la mise en oeuvre technique et graphique (compétences informatiques et design). Ce chaînon manquant, c’est l’architecte de l’information.

Une métaphore : celle du bâtiment bien sûr. S’il est possible de construire une maison sans faire appel à un architecte, dès qu’on s’attaque à un bâtiment important, une vue d’ensemble s’avère nécessaire ou pour le moins utile. L’architecte est aussi celui qui est à la fois capable de comprendre les besoins du commanditaire et les fonctions du bâtiment, et de savoir quelles techniques et quels matériaux pourront être utilisés pour la mise en oeuvre.

L’architecte de l’information est donc celui qui détient la vision globale du site Web. Cette vision globale doit avoir à la fois la qualité d’une vision extérieure, objective pour conserver sa globalité, et en même temps être proche des rouages internes de la production du site afin de bien comprendre les enjeux et de mettre en oeuvre une analyse réaliste.

Méthode

La base du travail de l’architecte de l’information est de comprendre les objectifs du site et le public visé, celui-ci pouvant être réparti en types d’utilisateurs qui pratiquent différents types d’usages. Le reste de l’analyse peut aisément être compris en filant la métaphore du bâtiment, car la conception des sites est fortement spatialisée.

  • la typologie et la classification des contenus revient à définir quels seront les espaces du bâtiment et quelles seront leurs fonctions
  • il faut ensuite réfléchir à la manière dont on circule entre ces espaces, et aux repères qu’on donne aux utilisateurs pour s’orienter : c’est la navigation dans le site Web et les outils de recherche d’information.

Enfin, l’architecte de l’information modélise tout ceci dans des maquettes fonctionnelles ou wireframes en anglais, dont l’objectif est de donner une vue d’ensemble graphique de la page et de la façon dont elle s’articule avec le reste du site. Cette maquette est une sorte de gabarit neutre sur lequel s’appliquera ensuite le graphisme.

Disciplines connexes

L’architecture de l’information est liée directement à d’autres disciplines aux noms barbares, telles que le design interactif, l’usabilité, la trouvabilité ou encore l’expérience utilisateur.

Cette dernière est intéressante parce que difficile à percevoir et surtout à quantifier. L’expérience utilisateur, c’est l’impression de se sentir bien quand on visite un site, ce qui est en partie une affaire de graphisme mais pas seulement. L’architecte de l’information réfléchit à enrichir l’expérience utilisateur, c’est-à-dire à essayer de tirer parti de ce que le média Web apporte de plus par rapport aux autres.

Quel rapport avec nous ?

Pour ceux qui se demandent encore le rapport avec les bibliothèques, je récapitule… L’architecture de l’information fait fortement appel à des compétences qui sont celles des bibliothécaires : classifier l’information, gérér des masses de ressources parfois hétérogènes, favoriser l’accès à l’information en fournissant des outils de recherche ou en aidant les lecteurs à s’orienter dans les collections. En retour, ce que l’architecture de l’information a à nous apporter, c’est son expérience des nouvelles technologies, sa conception spatiale de l’information, et surtout son côté très user-oriented, centré sur les besoins et les pratiques des usagers.

La réflexion déjà bien avancée chez les anglo-saxons a cet avantage de refléter un positionnement abouti de l’architecture de l’information au milieu d’un bouquet d’autres disciplines par rapport auxquelles on a parfois du mal à se situer. Dans la réfléxion sur le métier de bibliothécaire à l’heure du numérique, il est capital de savoir exactement où se situent nos compétences, et comment elles s’imbriquent avec celles des autres acteurs.

Ressources

Au risque de me répéter, je récapitule l’ensemble des ressources sur le sujet :

Livre

  • la bible de l’architecture de l’Information c’est l’ouvrage de Louis Rosenfeld et Peter Morville, Information architecture for the World Wide Web, le livre à l’ours polaire chez O’reilly, 2e édition en 2002 (en anglais)

Sites Web

Blogs

  • Bloug le blog de Louis Rosenfeld (en anglais)
  • FredCavazza.net blog très riche avec plein de définitions et de ressources super utiles (en français)

Google et l’OAI : je t’aime, moi non plus

Dans SPARC Open Access Newsletter du 3 mai, Peter Suber fait le point avec une remarquable honnêteté sur la question suivante : quel intérêt a-t-on, aujourd’hui, à déposer ses articles dans une archive ouverte supportant le protocole OAI-PMH, plutôt que sur le Web "visible", un site perso par exemple, référencé par Google ?

Malgré les différents avantages de l’OAI, Google semble avoir réponse à tout. Aussi l’auteur arrive-t-il, presque malgré lui, à la conclusion suivante :

putting an eprint on your personal web site won’t always be worse, or won’t be much worse, than depositing it in an OA-OAI archive.

L’article fait également le point sur les dernières initatives tendant à permettre aux moteurs de type Google de donner accès au deep Web : le projet OAIster/Yahoo, le projet OCLC/DSpace, le projet Ocean, le projet CrossRef, le moteur A9 d’Amazon…

Les perspectives ne sont donc pas simples… On n’a pas d’un côté les méchants moteurs commerciaux et de l’autre les gentilles archives ouvertes. Par contre, on a un excellent article de synthèse sur le sujet.

Les usagers d’abord

Aujourd’hui grande trouvaille sur Librarian.net : il semblerait que quand on réfléchit aux besoins des usagers pour créer des outils, lesdits usagers les utilisent ! Une découverte qui pourrait révolutionner la bibliothéconomie.

Dans le même ordre d’idées, un article de Library Journal explique ce que les moteurs de recherche pourraient apporter à la réflexion sur la recherche documentaire dans les catalogues de bibliothèques. Réponse… ils conviennent aux gens.

Au fait, pourquoi tout le monde en veut à Google ? On trouve un élément de réponse dans un article de Phil Bradley, dans le dernier numéro d’Ariadne sorti aujourd’hui : l’article fait l’historique des accusations lancées contre Google ces deux dernières années, et conclut qu’il ne faut pas lui jeter la pierre, mais revenir à une saine diversité. C’est une des facettes du Web : le monde selon Google.

Ca n’a aucun rapport, mais il faut tout de même noter que les bibliothèques sont à l’honneur aujourd’hui dans la blogosphère, chez Netlex et MediaTIC, ce dernier ayant tout de même la sagesse de préciser qu’avant que les bibliothèques se mettent à bloguer, il y a du chemin :

cela nécessite surtout de passer du stade du mot « documentation » dans l’utilisation d’Internet (terme très répandu dans le monde des bibliothèques en France) à celui de participation… C’est sans aucun doute un projet de longue haleine.

Qui cherche trouve

La problème de la recherche d’information cristallise pas mal de réflexions autour de l’évolution du Web, sur le thème « Google vs. le reste du monde ». Mais a-t-on bien raison de lancer la pierre au Goliath des moteurs de recherche ?

Voici un article passionnant qui nous explique les choses avec un autre point de vue. Google, en utilisant les liens pour évaluer le pagerank, ne fait que refléter pour l’internaute moyen les préférences du webmestre moyen. Le modèle ouvert du Web interdit à Google de faire confiance aux déclarations d’intention des individus (c’est-à-dire, aux métadonnées des sites). C’est ce qui oppose ce modèle à celui, appartenant au passé, où la classification (et donc l’accès) à l’information reposaient entre les mains de quelques individus : les professionnels de l’information… Tout ceci pour conclure que reprocher ce mode de fonctionnement à Google, c’est lui demander de faire ce pour quoi il n’est pas fait. Google donne un des sens (meanings) possibles du Web, pas tous.

Mais au fait, pourquoi les internautes aiment-ils tant Google ? Cet autre article, commenté dans ShelfLife la lettre hebdomadaire de RLG, apporte un élément de réponse : les scientifiques préfèrent chercher l’information sur le Web plutôt que dans les bases de données spécialisées, car cela leur apporte l’intégration des données, des informations sur les tendances importantes, bref, un contexte.

Les chinois, quant à eux, dans cet article cité par Open Access News, se proposent de modéliser la recherche sur trois niveaux : un premier niveau local (par ex., une bibliothèque), un deuxième plus large (par exemple, un réseau national de bibliothèques), et un troisième global (par exemple, le Web chinois). Bizarre, on est proche de la recherche fédérée, mais on sent peut-être aussi la recherche d’un contrôle global de l’information.

Enfin, il y a ceux qui pensent que le salut est dans les outils qui permettront de personnaliser le résultat de la recherche, comme les auteurs de ceci toujours vu dans ShelfLife, ou ceux qui se posent ce genre de questions sur l’utilisation de RSS conjointement avec les interfaces de recherche fédérée (info arrivée par Library Stuff).

C’était un peu long, mais c’est pas fini, le débat continue, en français s’il vous plaît, grâce à la BPI.

La fin du booléen ?

J’ai lu hier un intéressant article intitulé Is Boolean Dead?, signalé à raison par Diglet. L’auteur compare les professionnels de l’information aux Macs et aux Ipod. Les premiers savent que leur système, bien qu’un peu cher, est le meilleur, et ils n’en démordent pas. Les seconds ont compris qu’ils ne survivront que grâce à l’interopérabilité, à l’ouverture, et en allant au devant des attentes de leur client, et pas en attendant que celui-ci s’adapte à leur système. L’article poursuit en abordant la question de ces moteurs de recherche qui offrent une visualisation graphique de l’information.

C’est vrai que vu le bruit qu’a fait ces derniers temps la sortie de Gnod ou de Newsmap, il semblerait que ces outils perdent leur image de gadget et soulèvent de plus en plus d’intérêt. Peut-être deviendront-ils des outils ordinaires et indispensables dans l’Internet de demain. Il faudra alors mettre nos OPAC à la page et, peut-être, enterrer le docteur ET-OU-SAUF bien profond sous les couches d’une interrogation plus intuitive que jamais.

Plus d’infos sur la cartographie d’informations chez outils froids.

De l’OAI dans Google… ou du Google dans l’OAI ?

La blogosphère bibliothéconomique bruit aujourd’hui, malgré le week-end de Pâques et les oeufs dans le jardin : Google aurait passé un accord avec le MIT et d’autres Institutional repositories pour indexer des ressources du deep web. Selon cet article qui fait couler beaucoup d’encre virtuelle, Google projetterait de donner accès aux ressources de 17 partenaires universitaires par l’intermédaire de sa page de recherche avancée.

C’est en lisant l’article jusqu’au bout qu’on découvre que c’est OCLC qui ferait l’intermédaire entre les données bien cachées et Google, ce qui nous ramène ici, où il est question certes de harvester en OAI des entrepôts DSpace, mais ensuite de rendre ces données accessibles pour des moteurs tels que Google (pas seulement Google, donc ?)

Tout ceci nous rappelle une vieille histoire d’il y a au moins un mois, entre Yahoo et l’Université de Michigan, le premier se proposant d’harvester en OAI les ressources du second.

Et puis tant qu’on y est, ça me rappelle une aventure encore plus antédiluvienne, il y a deux mois avec cette affaire de projet Ocean, une grande histoire de numérisation entre Google et la bibliothèque de l’Université de Stanford, dont on a plus jamais entendu parler depuis. Mais c’est pas grave, ça me fait une excuse pour mettre une photo de mes vacances.