Google et l’OAI : je t’aime, moi non plus

Dans SPARC Open Access Newsletter du 3 mai, Peter Suber fait le point avec une remarquable honnêteté sur la question suivante : quel intérêt a-t-on, aujourd’hui, à déposer ses articles dans une archive ouverte supportant le protocole OAI-PMH, plutôt que sur le Web "visible", un site perso par exemple, référencé par Google ?

Malgré les différents avantages de l’OAI, Google semble avoir réponse à tout. Aussi l’auteur arrive-t-il, presque malgré lui, à la conclusion suivante :

putting an eprint on your personal web site won’t always be worse, or won’t be much worse, than depositing it in an OA-OAI archive.

L’article fait également le point sur les dernières initatives tendant à permettre aux moteurs de type Google de donner accès au deep Web : le projet OAIster/Yahoo, le projet OCLC/DSpace, le projet Ocean, le projet CrossRef, le moteur A9 d’Amazon…

Les perspectives ne sont donc pas simples… On n’a pas d’un côté les méchants moteurs commerciaux et de l’autre les gentilles archives ouvertes. Par contre, on a un excellent article de synthèse sur le sujet.

Internet, pour ou contre la vraie vie ?

Les accros de l’informatique, et en particulier d’Internet, passent assez souvent pour des asociaux. Les bloggeurs, je n’en parle même pas ! Mais sérieusement, est-ce que les blogs sont un frein au contact oral entre les gens ? On trouve des éléments de réponse sur le blog ZeligPlace, un blog sur… le blogguing.

Autre aspect intéressant de la question : les moteurs de recherche. Les moteurs de recherche (bon assez de fausse pudeur, disons-le, Google) sont-ils encore des moteurs de recherche, ou des outils de gestion de la vie ? Ou comment imaginer un monde où les problèmes de notre vie quotidienne se règleront tous seuls grâce à Internet. L’exemple culinaire est intéressant mais un peu facile. LucDesk a toutefois raison de soulever cette citation comme la phrase du jour :

« Search engines are going to die eventually and they will be replaced by problem solving engines. »

Les bibliothécaires seront-ils remplacés par une sorte de profession omniprésente, fortement marquée par la philosophie zen, dont le rôle serait d’aider les gens à résoudre les problèmes de la vie ? Ca serait rigolo ;-) …

Architecture de l’information

J’ai mentionné trop rapidement la dernière fois l’architecture de l’information, et son site phare, l’AIFIA, qui possède également une traduction française. En creusant un peu, ce domaine semble vraiment digne d’intérêt.

Aussi voudrais-je enrichir les plate-bandes des voisins en ajoutant quelques ressources "IA" notamment sur le Web sémantique :

  • un document qui compare les topic maps avec les autres types de métadonnées
  • un site wiki sur l’IA bourré de ressources, et en plus intelligemment agencé (c’est le moins qu’on puisse espérer…) avec ses index et ses backlinks… et qui, cerise sur le gâteau, recense des blogs sur le sujet
  • une page-ressource assez indigeste mais bien complète sur RDF.

A nous le Web sémantique ! Nous devons toutes ces adresses à nos amis les techie librarians. Mais je m’aperçois que j’ai encore frappé presque dans le tout anglophone, alors pour compenser, je vais rajouter deux blogs sympathiques en français : le blog de Fred Cavazza actuellement en vacances, et AkaSig en français à ses heures.

Enfin, n’oublions pas la phrase du jour :

« L’internet est un navire qui peut nous porter sur les rivages resplendissants, mais il ne faut pas oublier que des requins dangereux nous guettent. »

Et son utile complément (hommage) :

« Il vaut mieux mobiliser son intelligence sur des conneries que mobiliser sa connerie sur des choses intelligentes ».

Ressources pour les lecteurs, les chercheurs et les bloggeurs

Un peu en vrac, désolée…

Qui cherche trouve

La problème de la recherche d’information cristallise pas mal de réflexions autour de l’évolution du Web, sur le thème « Google vs. le reste du monde ». Mais a-t-on bien raison de lancer la pierre au Goliath des moteurs de recherche ?

Voici un article passionnant qui nous explique les choses avec un autre point de vue. Google, en utilisant les liens pour évaluer le pagerank, ne fait que refléter pour l’internaute moyen les préférences du webmestre moyen. Le modèle ouvert du Web interdit à Google de faire confiance aux déclarations d’intention des individus (c’est-à-dire, aux métadonnées des sites). C’est ce qui oppose ce modèle à celui, appartenant au passé, où la classification (et donc l’accès) à l’information reposaient entre les mains de quelques individus : les professionnels de l’information… Tout ceci pour conclure que reprocher ce mode de fonctionnement à Google, c’est lui demander de faire ce pour quoi il n’est pas fait. Google donne un des sens (meanings) possibles du Web, pas tous.

Mais au fait, pourquoi les internautes aiment-ils tant Google ? Cet autre article, commenté dans ShelfLife la lettre hebdomadaire de RLG, apporte un élément de réponse : les scientifiques préfèrent chercher l’information sur le Web plutôt que dans les bases de données spécialisées, car cela leur apporte l’intégration des données, des informations sur les tendances importantes, bref, un contexte.

Les chinois, quant à eux, dans cet article cité par Open Access News, se proposent de modéliser la recherche sur trois niveaux : un premier niveau local (par ex., une bibliothèque), un deuxième plus large (par exemple, un réseau national de bibliothèques), et un troisième global (par exemple, le Web chinois). Bizarre, on est proche de la recherche fédérée, mais on sent peut-être aussi la recherche d’un contrôle global de l’information.

Enfin, il y a ceux qui pensent que le salut est dans les outils qui permettront de personnaliser le résultat de la recherche, comme les auteurs de ceci toujours vu dans ShelfLife, ou ceux qui se posent ce genre de questions sur l’utilisation de RSS conjointement avec les interfaces de recherche fédérée (info arrivée par Library Stuff).

C’était un peu long, mais c’est pas fini, le débat continue, en français s’il vous plaît, grâce à la BPI.

Histoires de blogs

Je ne voudrais pas avoir l’air d’imiter ces bloggeurs qui parlent de blogs et qui le font si bien, mais j’ai envie de jouer un petit peu au jeu du serpent qui mord sa queue. Alors, aujourd’hui dans la blogosphère…

Padawan nous offre des food for thoughts avec son tout neuf weblog de liens (qui a maintenant son fil RSS). Vachement chouette.

Tristan est revenu ! Youpi et bon vent au Standblog nouveau.

Robin Good nous donne la recette du succès pour le bloggeur qui cherche à être lu :

It comes in the form of great, unique, hard-to-find, personally selected content that you offer to your audience on a systematic basis.

Et aussi se faire bien référencer, publier des choses intéressantes et « uniques » tous les jours, choisir une licence qui favorise la diffusion des contenus… une pincée de patience, et c’est prêt !

Et pour finir, les coups de coeur de mes vacances :

Il y en aurait bien d’autres. Ils mériteraient une place à gauche mais ça va faire râler mon geek…

Du RSS dans le Web

Aujourd’hui il fait moche, mais alors un temps, inimaginable, j’aurais pu passer ma journée à bloguer mais je me suis abstenue et j’ai décidé d’en garder un peu pour demain.

Aujourd’hui, parlons de RSS avec Jason Kottke, qui se demande s’il est encore raisonnable d’appeler ATOM et RSS de la "syndication" : pour lui, RSS est devenu un autre moyen de naviguer sur le Web, tout simplement, et les aggrégateurs vont devenir des microcontent browsers.

Et qu’est-ce qui fait la force de RSS ou d’ATOM par rapport à HTML ? Je vous le donne en mille : la sémantisation et la structuration des données, bien sûr.

C’est vrai qu’aujourd’hui, on peut tout faire avec RSS, même générer des fils RSS à partir de requêtes dans Google

Mais alors, moi qui lis mes fils RSS dans un aggrégateur en ligne, que je remercie au passage pour sa pertinente nouvelle fonction "toplink", est-ce que j’utilise un micronavigateur dans un navigateur, ou est-ce que je fais de la syndication de contenu ? hein ? Bon, d’accord, là je chipote…

Pas de Google bombing pour les bibliothécaires

Cette histoire commence sur le blog Library Stuff, où Steven M. Cohen appelle à un Google bombing positif, visant à promouvoir le rôle des bibliothèques dans la recherche d’information :

For the keyword « information », lets try to link it up to the Library of Congress. For the keyword, « web directory », lets try to link it up to LII.

Entreprise qui, après avoir généré l’enthousiasme bon enfant propre aux bloggeurs, fait réfléchir les professionnels de l’information que sont les techie librarians : c’est sur librarian.net que s’expriment les premiers doutes. Nous, les bibliothécaires, pouvons-nous nous permettre d’utiliser les faiblesses des outils informatiques pour leur faire dire que nous sommes les meilleurs ? Ne serait-ce pas tromper ceux qui voient en ces outils des sources objectives, ceux que nous sommes censés aider ?

Confirmation de cette position par la directrice de LII en personne, Karen Schneider : rien n’est plus contraire à notre façon d’agir que le Google bombing. Et, fin de l’histoire, le lanceur de l’idée se rétracte.

Cette petite aventure blogosphérique est intéressante. Je n’aurais jamais pensé que la déontologie de mon métier m’interdirait un jour de me jouer de la technologie, même si c’est dans un but didactique. Il y aurait beaucoup à dire sur la différence entre le Google bombing, manipulation collective consciente pure et simple, et l’image inévitablement biaisée du monde que donnent nos classements, nos sélections, nos choix bibliothéconomiques.

Enfin bon, j’espère que ça ne va pas m’empêcher de dormir.

De l’OAI dans Google… ou du Google dans l’OAI ?

La blogosphère bibliothéconomique bruit aujourd’hui, malgré le week-end de Pâques et les oeufs dans le jardin : Google aurait passé un accord avec le MIT et d’autres Institutional repositories pour indexer des ressources du deep web. Selon cet article qui fait couler beaucoup d’encre virtuelle, Google projetterait de donner accès aux ressources de 17 partenaires universitaires par l’intermédaire de sa page de recherche avancée.

C’est en lisant l’article jusqu’au bout qu’on découvre que c’est OCLC qui ferait l’intermédaire entre les données bien cachées et Google, ce qui nous ramène ici, où il est question certes de harvester en OAI des entrepôts DSpace, mais ensuite de rendre ces données accessibles pour des moteurs tels que Google (pas seulement Google, donc ?)

Tout ceci nous rappelle une vieille histoire d’il y a au moins un mois, entre Yahoo et l’Université de Michigan, le premier se proposant d’harvester en OAI les ressources du second.

Et puis tant qu’on y est, ça me rappelle une aventure encore plus antédiluvienne, il y a deux mois avec cette affaire de projet Ocean, une grande histoire de numérisation entre Google et la bibliothèque de l’Université de Stanford, dont on a plus jamais entendu parler depuis. Mais c’est pas grave, ça me fait une excuse pour mettre une photo de mes vacances.

Trucs de geek

Oh la la, dur dur de garder le rythme, en vacances ! Bon, ça va être un peu fouilli, mais voici quelques trucs qui devraient être utiles (enfin, plus ou moins) aux geeks, aux techie librarians, et d’une façon générale aux gens qui passent leur vie devant leur écran (allumé et connecté) même s’ils ne l’utilisent pas :

  • Online News Screensaver, un économiseur d’écran qui affiche des fils rss de news sur différents domaines. Pour rester informé même quand on est au téléphone… ou qu’on fait un autre truc en même temps… enfin si on est pas devant ça sert pas à grand chose, non ?
  • spécialement dédicacé aux gens qui n’utilisent pas Internet Explorer, un petit outil pour calculer vite et facilement le pagerank de votre site.
  • enfin, une nouvelle liste de discussion, à l’usage des bibliothécaires, pour parler de métadonnées, de Web sémantique, de XML, de data management, enfin de tas de trucs intéressants : techie librarian (râââhh, rien que le nom, ça donne envie !)

Merci à Library Stuff, à ODP weblog et à usr/lib.