Web sémantique appliqué aux collections numériques

En ce moment, je fais un peu de veille sur les technologies du Web sémantique appliquées aux bibliothèques (en général) numériques (en particulier). Je vous propose de m’accompagner dans cette découverte, à travers quelques exemples commentés.

Le premier que j’ai choisi est cette démo qui propose de construire une interface à facettes dans des images à partir de données en RDF. On peut consulter dans ce prototype trois collections d’images, indexées avec 4 vocabulaires différents.

Les "plus" : c’est le côté facettes que j’aime toujours autant, mais aussi la possibilité de rebondir de concept en concept à l’infini. Le système est tolérant aux erreurs ("fuzzy search"). Les données permettent de générer un accès chronologique aux objets (périodes, personnes, oeuvres) en relation avec une requête. D’ailleurs c’est très performant en termes de recherche temporelle (on peut chercher des notions comme avant, après…) On peut exprimer des notions assez complexes (comme la relation plus ou moins éloignée entre deux choses). En plus, les images sont très belles ce qui ne gâche rien.

Les "moins" : l’affichage de certaines données est parfois assez cryptique pour des gens qui ne manipulent pas les technos du web sémantique… notamment tout ce qui permet d’accéder aux relations. Heureusement la FAQ donne quelques explications entre deux détails techniques !

En fait c’est un des problème avec le web sémantique : si on n’explique pas, si on ne le montre pas exprès, le fait que ce soit fabriqué avec du web sémantique ne se voit pas. Ces technologies font partie des principes d’architecture propre, interopérable et normalisée, qui sont en général cachés aux yeux des utilisateurs. Ce n’est pas de la carosserie, ça n’en jette pas, c’est pas du web 2.0 quoi… Mais le bénéfice d’avoir une architecture propre et performante, sur le long terme, est inestimable.

Google et la lecture à l’écran

J’ai pas mal râlé contre les interfaces de lecture de livres numérisés qui ne prennent pas en compte des fonctionnalités simples comme le zoom, l’affichage de la structure, etc.

Et voilà que Google annonce son nouveau visualiseur de livre : qui propose, en vrac

  • un zoom avant-arrière
  • un tourne-page pour les amoureux du livre « à l’ancienne »
  • un ascenseur vertical, avec chargement progressif des pages, pour les amoureux de la lecture dans Word
  • un affichage « plein-écran » pour plus de confort
  • un système de palettes refermables pour les différents services (notice, achat en librairie, etc.)
  • une table des matières en mode texte (parfois un peu limitée, mais bon, elle existe)
  • un lien vers un service de recommandation et vers Google Scholar

et toujours

  • une interface simple et intuitive
  • le téléchargement de l’ouvrage complet en PDF
  • la recherche de mots dans le livre.

D’un point de vue fonctionnel, c’est presque parfait. Avec ce nouvel outil, Google nous montre une fois de plus à quel point ils sont réactifs face aux critiques, capables de trouver les compétences adéquates quand ils en ont besoin, et efficaces quand il s’agit de faire progresser leurs applications.

Evidemment, ça ne change rien à tout ce qu’on a pu dire sur la qualité de numérisation qui laisse parfois à désirer, ou sur la façon douteuse de constituer la collection et les listes de résultats. Mais ça progresse.

Et puis, n’oublions pas que pour atteindre cet objectif, ils ont des moyens quasiment illimités et une puissance machine démentielle pour soutenir cette belle interface en Ajax (ce qui n’est pas le cas de tout le monde).

Vous avez dit « virtuel » ?

Non, en fait, j’ai dit numérique et pas virtuel.

La preuve : pour stocker des documents numériques, il faut de la place. Beaucoup de place. Par exemple un container.

A part ça, pour stocker des documents numériques, il faut de la puissance, beaucoup de puissance. Par exemple celle d’Amazon.

Du coup, pour stocker des documents numériques correctement et sur le long terme, il va falloir du temps, beaucoup de temps. Au moins 100 ans de réflexion.

Merci à Got et Faut le savoir, à Thierry et à 10KY blog.

3 ressources sur les métadonnées

Un bouquin : Metadata and its impact on libraries. A lire le résumé, je ne suis pas sûre d’être d’accord avec tout dans cet ouvrage (notamment la définition des métadonnées…), mais cela semble être une synthèse correcte et assez complète.

Un article dans Dlib : Beneath the Metadata – Some Philosophical Problems with Folksonomy. Après le coup de MARCXML, voilà maintenant qu’ils nous expliquent les différences entre l’indexation bibliothéconomique et le social tagging, et que la première est le Bien et la seconde le Mal… Pourrait-on cesser un peu d’opposer ces deux modèles et de voir le monde en noir et blanc ? Donc je ne suis pas très d’accord avec ça non plus.

Un rapport chez HP : What next for semantic blogging. Celui-ci présente un prototype d’utilisation des blogs pour créer des réseaux sémantiques. Il mélange un peu tout, les microformats, le RSS, le RDF, FOAF… Mais il y a sans doute de bonnes idées. Au moins, il écarte la tarte à la crème 2.0.

Bon c’est pas très glorieux tout ça : la blogosphère est acide et moi avec. J’essayerai de positiver un autre jour.

Merci à Resourceshelf et Catalogablog.

C’est Noël

Voilà, mon nouveau graphisme est en place. Vous avez le droit de protester avec véhémence dans les commentaires de ce billet, surtout si ça ne passe pas bien dans votre résolution d’écran ou avec votre navigateur/aggrégateur préféré. Vous remarquerez qu’il n’y a pas de violet… et si vous n’aimez pas non plus le rose, c’est le même prix !

C’est un peu bêta

C’est la mode dans les bibliothèques de sortir des trucs en version bêta. La preuve par l’exemple…

La Library of Congress a sorti un beta search assez intéressant. Une recherche simple qui fédère toutes les ressources de la bibliothèque (catalogue, bibliothèque numérique, site Web) : cela fait carrément penser à la National Library of Australia qui propose le même service, pas beta, sur sa page d’accueil depuis au moins 2 ans.

La Bibliothèque numérique d’Oxford a sorti un site beta construit avec Greenstone. Je trouve cela dommage qu’on soit obligé d’entrer par collection, à l’anglo-saxonne : ça manque un peu de recherche globale.

Merci à Peter Scott et à ResourceShelf.

Y a-t-il un pilote dans l’avion ?

Epatant de voir qu’en 2006, les bibliothécaires s’inquiètent de savoir si la bibliothèque numérique se fera sans eux.

D’après cet article daté de 2005, il nous a fallu plus de 10 ans pour arrêter de considérer les bibliothèques numériques comme un problème technique ou technologique, et les aborder sérieusement d’un point de vue organisationnel et métier.

Alors que dans le domaine de l’édition électronique, on a dépassé depuis longtemps le concept de la désintermédiation, nous en sommes encore à nous extasier de découvrir que les lecteurs utilisent Google sans passer par nous.

Plus de 10 ans de cahiers des charges, de métadonnées, de normes et de protocoles, de spécifications fonctionnelles, d’études d’usages, d’interfaces, de moteurs, et nous croyons toujours que le bibliothécaire numérique n’existe que s’il fait de la référence en ligne ou s’il acquiert des revues. (Le monde numérique ne se limite pas aux revues, que diable !)

Il serait peut-être temps d’admettre que les bibliothèques 2.0 seront animées par… des bibliothécaires. Oui.