Les données bibliographiques sur le Web

Martha Yee nous a proposé dernièrement une intéressante réflexion : Can bibliographic data be put directly onto the semantic Web ?
Dans cet article, elle relate une expérimentation qu’elle a réalisée sur la FRBRisation et RDFisation de données bibliographiques, et qui débouche sur une liste de 13 questions qu’elle se pose sur l’utilisation de RDF pour exprimer des données bibliographiques.
Son article est intéressant même si à mon avis il part parfois sur des malentendus (par exemple, l’idée que RDF a été conçu pour l’intelligence artificielle ou encore la nécessité de « réguler » l’attribution des URI au niveau global). Toutefois beaucoup des questions qu’elle se pose me semblent plutôt relever de la modélisation de nos données en tant que telle (et de faiblesses dans le modèle FRBR et autres) plutôt que de l’utilisation de RDF.
De même, à différentes reprises, les problématiques liées à la modélisation sont mêlées avec celles qui relèvent plutôt des applications qui vont utiliser les données, ce qui ne simplifie pas la lecture de l’article.

On retrouve ces considérations chez Karen Coyle, qui a rédigé une série de réponses extrêmement pertinentes sur son blog :
introduction
– réponse aux questions : 1 et 2,
– réponse aux questions : 3, 4 et 5,
– réponse aux questions : 6, 7 et 8,
– réponse aux questions : 9, 10 et 11,
– et enfin réponse aux questions : 12 et 13.
Je conseillerais pratiquement de lire ces réponses plutôt que (ou au moins, en même temps que) l’article original. Elles contribuent à clarifier extrêmement les choses et soulèvent plein de défis passionnants sur ce qu’il faudra remettre en cause dans nos pratiques à l’heure de passer les formats MARC en RDF.

Je complèterais cette série de lectures par un billet d’Eric Hellman sur son très excellent blog, dans lequel il demande malicieusement : Can librarians be put directly onto the semantic web ?
Le problème ne réside en effet pas uniquement dans les données, mais aussi dans le fait que les bibliothécaires vont devoir changer de paradigme. Je le cite (et le traduis) :

Alors que les métadonnées des bibliothèques ont traditionnellement été conçues pour pour aider des humains à trouver et utiliser l’information, les technologies du Web sémantique sont conçues pour aider des machines à trouver et utiliser l’information. Les métadonnées étaient destinées à être vues et exploitées par des humains, ce qui a été à l’origine d’une relation plutôt inconfortable avec les bases de données relationnelles. Les ontologies du Web sémantique, au contraire, sont faites pour rendre les métadonnées compréhensibles et exploitables pour les machines. Une ontologie est déjà une sorte de programme informatique, et concevoir un schéma RDF est la première étape pour indiquer à un ordinateur comment traiter un certain type d’information.

Et d’assimiler le travail de Martha à celui d’un programmeur, parce que dans sa démarche de modélisation, elle imagine les comportements de la machine vis-à-vis des données.

Pour aller encore au-delà (et faire plaisir à mon geek préféré qui va faire des bonds sur sa chaise en lisant tout ça), je dirais que dans un monde idéal, le Web sémantique devrait nous permettre de nous abstraire de la façon dont les humains et les machines vont utiliser les données. Si le modèle est fait correctement, il devrait permettre à d’autres d’inventer de nouvelles façons, non-bibliothéconomiques, de traiter nos données.
Mettre les bibliothécaires sur le Web sémantique, c’est dans une certaine mesure accepter de lâcher prise sur les données bibliographiques.

Un goût d’été

Ce midi, dernier verre de Pastis bleu sur la terrasse, dans le vent de la mer.

Je mets mes dernières figues du Var en pots (de confiture) avant de repartir pour Paris.
Y aura-t-il des figues à Milan ???

L’IFLA et moi

Comme vous pouvez le lire sur le blog du CFI (le Comité français IFLA), cette année j’ai eu la chance de bénéficier d’une bourse pour participer au congrès de l’IFLA à Milan.

Je vais d’abord assister à la conférence satellite de la section Technologies de l’Information, dont je fais désormais partie. Cette conférence aura lieu juste avant l’IFLA et aura pour thème Emerging trends in technology: libraries between Web 2.0, semantic web and search technology et j’y présente une courte intervention d’état de l’art sur le Linked data.

Le congrès lui-même aura lieu du 22 au 27 août et j’y présente aussi une communication, rédigée avec Gildas, sur les indicateurs des archives du Web.

Tout ceci sera pour moi l’occasion d’accorder enfin un peu de temps à mon blog et de vous présenter mes réflexions au fur et à mesure (j’espère : si les moyens techniques le permettent). Et de décrypter un peu cette mystérieuse entité qu’est l’IFLA…

Le mapping ultime

Dans ce communiqué de presse, est annoncée la naissance d’une initiative ambitieuse : Vocabulary mapping framework.
Il s’agit d’une extension des travaux de rapprochement entre les RDA et ONIX, visant à rendre intéropérables les principaux standards de métadonnées descriptives : Dublin Core, Onix, RDA, MARC21, DOI, FRBR, LOM, etc.
La méthode proposée : réaliser un mapping universel permettant de créer des passerelles (crosswalks) entre ces vocabulaires afin de faciliter les transformations d’un format à un autre. Les mappings seront exprimés en RDF/OWL. Ce résultat est attendu pour le 9 novembre 2009, où il sera formellement présenté lors d’une conférence à la British Library.
Les étapes suivantes envisagées sont la génération automatique de mappings entre n’importe quelle paire de formats, et l’existence d’un site qui permettra de maintenir et de faire évoluer les conversions.
Derrière le projet, on trouve le DOI, la British Library et le JISC (entre autres).

Mon avis personnel : le projet n’est pas seulement ambitieux, mais un petit peu délirant. J’ai beau croire fort dans les technologies du Web sémantique, pas sûr qu’elles permettront de résoudre tous les problèmes de mappings en 6 mois.
Et puis :
– est-ce que cela a vraiment un sens de faire un mapping absolu, indépendamment de la nature et de la spécificité des données et de la façon dont chaque format est implémenté ?
– n’y a-t-il pas un peu à boire et à manger dans la liste de métadonnées ci-dessus (des formats, des modèles conceptuels, des vocabulaires, des systèmes, etc…)
– enfin quel est l’intérêt du DOI (et de l’IDF, International DOI Foundation) pour soutenir un tel projet : le revendre ? vendre les résultats ? vendre le service ? rendre plus de gens dépendants du DOI ? mettre le DOI au centre du monde (ce petit monde qu’est le milieu de l’informatique documentaire) ?

A suivre de très près.

Partager les fonctions d’archivage

La partie 6 de l’OAIS (qu’est-ce que c’est ?) intitulée « Archives Interoperability » n’est pas la plus connue du modèle. Pourtant elle n’est pas inintéressante.

Elle distingue trois modes possibles d’interaction entre plusieurs archives OAIS :
– la coopération : les archives servent une même communauté d’utilisateurs et de producteurs, donc elles partagent les mêmes standards, mais fonctionnent de manière indépendante
– la fédération : les archives servent une même communauté d’utilisateurs et partagent leur « catalogue », mais pas les fonctions d’archivage
– les archives partagées : elles mutualisent certaines fonctions (par exemple le stockage) pour réduire les coûts, mais servent des communautés d’utilisateurs et de producteurs distinctes.

Le premier modèle, la coopération, est relativement simple et permet de mettre en place par exemple des échanges d’AIP pour augmenter le nombre de copies redondantes et/ou la disponibilité du service.

Les deux autres modèles sont cependant à mon avis ambigus du point de vue du traitement des données, de l’entité « Gestion de données » et de l’entité « Planification de la préservation ».

Dans le modèle fédéré, le fait de disposer d’un catalogue commun pose la questions des identifiants d’AIP qui doivent être globalement unique d’une archive à l’autre. Je trouve le modèle un peu daté sur ce point : si tout le monde utilisait des URI on n’aurait pas de problème ;-) de même il ne me semble pas indispensable de répliquer les AIP pour fournir un service mutualisé de façon transparente pour l’utilisateur final.
L’idée de catalogue commun est aussi ambigüe : s’agit-il d’un catalogue au sens métadonnées descriptives, ou au sens de l’OAIS ? C’est à dire, est-ce que les fonctions de recherche sont purement déterminées en fonction des besoins de l’utilisateur final, ou est-ce qu’elles incluent les recherches spécifiquement techniques qui permettent, par exemple, d’élaborer un plan de migration ?
Je trouve que tout cela n’est pas très clair par rapport aux fonctions que l’on connaît habituellement dans Accès (qui doit coordonner les demandes des utilisateurs, à la fois en requêtes et en paquets) et dans Planification de la Préservation.

Dans le modèle partagé, l’OAIS préconise que pour partager le stockage il faut aussi partager l’entité « Gestion de données ». Seules les fonctions « Versement » et « Accès » restent séparées, de même qu’Administration (comment Administration peut-il être être vraiment séparé ???). Quant à la Planification de la préservation, elle n’apparaît même pas sur le schéma.
Si je devais partager mon Stockage avec mon voisin, je crois que cela me gênerait de partager mon « Gestion de données » et mon « Planification de la préservation » avec lui. Enfin, je suppose qu’il faut comprendre que comme Accès reste séparé, c’est lui qui filtre qui a le droit de requêter quoi.
La version en cours de relecture (jusqu’au 15 juin !) pour la révision quinquennale de l’OAIS ajoute une chose importante, la possibilité de partager un répertoire de formats. Mais le paragraphe ajouté me semble flou au possible.

J’aurais aimé que la partie 6.2 développe les contraintes de management des archives partagées, et pas seulement des archives fédérées. Mais je crois que j’ai loupé le coche, il va falloir attendre la prochaine révision, dans 5 ans :-(

Amis experts de préservation, lâchez vos com’s.

Les catalogues sur le Web

Hier j’étais à Médial à Nancy pour une Journée d’études sur les catalogues nouvelle génération ».

Je ne sais pas si ce diaporama apportera quoi que ce soit sans les explications qui vont avec, mais en tout cas j’avais envie de le partager, ainsi que le plaisir que j’ai eu à faire cette présentation devant un public intéressé, attentif et indulgent.
J’en profite aussi pour remercier Françoise L. pour les quelques diapos que je lui ai empruntées et surtout pour ce qu’elle m’a apporté par ses réflexions.

La notion de document dans le Web sémantique

Ce billet est petite pierre à ajouter à la série de Got :
– les carcans de la pensée documentaire (1) et (2)
l’antilope sur le Web
Que vous trouverez brillamment résumés chez Hubert.

Dans le Web sémantique, on décrit le monde sous forme de triplets sujet – prédicat – objet. Chaque triplet est indépendant : ce qui veut dire qu’il doit pouvoir être compris sans avoir besoin de contexte, ou du moins, d’autre contexte que la connaissance des entités qui sont représentées par les URI.
Plus j’avance dans ma connaissance du Web sémantique, plus je suis persuadée que les identifiants – les URI – sont la clef de tout. Une fois qu’on a conçu correctement ses URI, tout le reste coule de source.

URI abstraites, URI concrètes
Quand j’ai commencé à travailler sur les identifiants ARK, nous avons introduit dans la notion d’identifiant une différence entre ressource abstraite et concrète.
Une ressource que nous considérions comme abstraite, intellectuelle, par exemple un document numérique comme celui-là, était potentiellement mouvante : bien que son contenu soit toujours le même, sa présentation, sa forme, et les fonctionnalités associées pouvaient changer.
Au contraire, une ressource concrète correspondant à ce document dans un certain format (mode texte ou mode image, tiff ou jpeg…), dans une certaine qualité (par exemple haute et basse résolution), ou dans un certain contexte de visualisation (en pleine page, avec sa table des matières, sous forme de vignettes…) était définie comme stable.
Dès le départ, nous avons donc défini que chaque objet numérique aurait une URI abstraite, en l’occurrence ark:/12148/bpt6k28585w, et plusieurs URI concrètes permettant d’appeler ses formats, résolutions, contextes etc. Par exemple : http://gallica.bnf.fr/ark:/12148/bpt6k28585w.texte pour le visualiser en mode texte dans Gallica, ou http://catalogue.bnf.fr/ark:/12148/bpt6k28585w/f46 pour visualiser la 46e image dans le contexte du catalogue.

Ce choix (qui n’avait rien à voir avec le Web sémantique à l’époque) m’a bien aidée à comprendre ensuite certaines notions liées à l’utilisation des URI dans le Web sémantique, qui est décrite dans la note du W3C « URIs sympas pour le Web sémantique » (déjà évoqué succinctement ici).

Dans Gallica, l’URI abstraite ne correspond à rien d’autre qu’à une page Web qui est la représentation que nous avons décidé de donner, à un instant T, de ce document dans Gallica. Si je ne vous avais pas dit qu’il y avait une URI abstraite, vous n’auriez aucun moyen de le savoir.
Dans le Web sémantique, au contraire, on utilise effectivement l’URI abstraite d’une ressource pour effectuer un certain nombre d’assertions sur cette ressource : les fameux triplets.

La matérialisation des triplets
Évidemment, ces triplets sont comme tout en ce monde : ils ont une matérialisation. C’est-à-dire que si on veut en faire quelque chose, il va falloir les faire passer du monde de la pensée abstraite au monde physique, et pour cela les exprimer d’abord en terme de modèle (je choisis comment je formule ma phrase, ou mon triplet), puis les manifester en termes de support (j’inscris ma phrase ou mon triplet sur un support, fut-il numérique). J’emploie à dessein les termes d’exprimer et manifester, je suis sûre qu’il y en a qui me suivent ;-)
Pour des raisons de commodité évidente, on n’exprime pas chaque triplet sur un support indépendant du triplet voisin. On les regroupe dans des … documents (ou dans dans une base de données, mais vous noterez que Got assimile, très justement à mon avis, l’enregistrement dans une base de données qu’est une notice bibliographique à un document). Cela permet d’alléger un peu la syntaxe (RDF étant quand même pas mal verbeux) en ne répétant pas tout le temps l’URI dont on parle, et de regrouper dans un même support, comme un fichier RDF/XML, un ensemble de triples qui concernent la même ressource (par exemple).

Ce qu’il est important de comprendre, c’est que ce regroupement des triplets dans un document est, en principe, non signifiant : on peut, en théorie, choisir de manière libre et arbitraire quels triplets on regroupe dans un fichier, et quels triplets on met ailleurs. Je dis bien en théorie, car en pratique, et c’est là que je rejoins JMS dans son dernier commentaire, l’inscription des données dans un document n’est pas juste un hasard. Elle correspond généralement à une formalisation suivant un protocole défini et qui permet aux gens (les machines, elles, s’en foutent) de reconnaître la structure de l’information qui leur est proposée et d’en faciliter la manipulation.

Mais je m’éloigne de mon propos.

La fixation des triplets dans un document n’est qu’une des représentations possibles de l’information qu’ils contiennent, et c’est ça qui est intéressant dans le Web sémantique. Pour une même ressource abstraite, je vais pouvoir proposer différentes représentations, qui varieront suivant la forme (je peux décrire une seule ressource dans un fichier, ou plusieurs), la qualité (je peux retenir 10 triplets concernant cette ressource ou en retenir 100) ou encore le contexte (choisir certains triplets plutôt que d’autres) que je souhaite donner à mon information.
A cette étape là on définit ce qu’on appelle le « generic document » ; qui équivaut à la manifestation des triples qu’on a choisis sur un support et qui a lui-même une URI, différente de celle de l’entité abstraite.

Le Web de données et ses documents
Le travail sur le <a href="http://linkeddata.orglinked data a été à l’origine de réflexions importantes concernant la représentation des données en RDF sous forme de documents. L’objectif du linked data étant de rendre des données disponibles sur le Web, il a paru rapidement utile de pouvoir les fournir sous forme de données (pour les machines) mais aussi sous forme de pages Web, c’est à dire de documents (pour les humains).

C’est là qu’entre en scène le mécanisme de négociation de contenu, qui est décrit justement dans la note en question du W3C. La négociation de contenu sert à gérer le passage de l’URI abstraite au document. En gros (je caricature), on envoie à un serveur une URI abstraite, il en déduit l’URI du generic document, puis il regarde si vous êtes un humain ou une machine avant de vous renvoyer soit une page Web, soit un ficher RDF.
Ce dernier niveau, le niveau technique, visible, pratique, c’est ce qu’on appelle le « Web document » ; qui correspond à une formalisation précise du « generic document », une représentation dans un format particulier.

Le Web de données vu comme une publication
Là je vais tordre un peu le cou à nos concepts bibliothéconomiques habituels, mais imaginons que nous essayions de qualifier le Web de données comme une publication, ou un ensemble de publications.

En terme de modèle documentaire, si je prends une idée (une œuvre par exemple) et que je la mets en RDF, son expression est à la fois atomisée (sous forme de triplets) et illimitée (de par les liens avec d’autres triplets). Le nombre de manifestations, ou documents, que je peux en tirer est potentiellement infini. Et il peut y avoir plusieurs items ou documents techniques qui représentent chaque manifestation de façon appropriée au mode technique d’accès.

Ainsi, même dans le Web sémantique, tout n’est pas de la donnée. Il y a forcément du document quelque part, et même s’il faut réussir à l’ignorer pour sortir du « carcan de la pensée documentaire », je trouve qu’il est excessif de nier son existence. Pour des gens comme nous qui sommes habitués à manipuler des concepts documentaires, cette négation est même contre-productive. Les documents existent, on peut les voir dans l’espace du Web, et en tant que bibliothécaires il nous sera nécessaire de les identifier et les qualifier pour pouvoir nous approprier le Web sémantique.

Catalogues en ligne et qualité des données

Ce billet est un résumé du rapport d’OCLC : Online Catalogues : what users and librarians want, publié en avril 2009.

Le rapport d’OCLC porte sur la définition de la qualité des données du catalogue (de Worldcat en particulier, même si la plupart des conclusions peuvent être extrapolées), qui n’est pas la même pour les bibliothécaires et les utilisateurs. Ce sont les usages du Web qui obligent à repenser les objectifs et les modes de fonctionnement des catalogues.
Les priorités (en termes de qualité) des bibliothécaires sont le dédoublonnage et l’utilisation (correcte) des autorités. Celles des usagers sont l’accès aux ressources elles-mêmes (pas seulement à leur description : delivery vs. discovery) et la simplicité d’utilisation des outils leur permettant d’être autonomes.
Le rapport s’intéresse aussi aux besoins des bibliothécaires en tant que professionnels (acquéreurs, catalogueurs, etc.) et prend en compte l’accès à Worldcat par Z39.50.
Les méthodes utilisées pour l’enquête incluaient des focus groups, un questionnaire en ligne, et un questionnaire ciblé pour les professionnels.

Les résultats : ce que veulent les usagers

Pour l’usager, l’accès à la ressource (delivery) est aussi important, voire plus important que le fait d’être à même de la trouver (discovery). Donc ce qui compte c’est

  • de disposer de notices enrichies (résumés, tables des matières, etc. mais aussi des critiques, des notes…) surtout pour permettre d’évaluer si ce qu’on a trouvé correspond à ses besoins ;
  • le classement de résultats par pertinence doit être efficace et évident (on doit comprendre immédiatement pourquoi tel résultat sort en premier)
  • il faut faciliter par des liens directs le passage de la « trouvaille » (notice) à l’accès à la ressource (document).

La recherche par mots-clefs est « reine » mais la recherche avancée et les facettes sont essentielles pour s’y retrouver dans la masse. Les facettes permettent d’affiner sa recherche de manière guidée, sans avoir à parcourir d’interminables listes de résultats. Elles sont bien comprises et vite adoptées par les usagers. Toutefois pour que cela fonctionne, il faut que les données soient indexées de manière structurée.

Dans la liste des éléments de données essentiels pour trouver l’information, l’importance des localisations / données locales (par ex. informations sur la disponibilité) est à souligner.
En ce qui concerne les éléments qui permettent de décider si le livre est pertinent (couverture, résumé, critiques), l’usager souhaite en disposer dès la liste de résultats. Mais en ce qui concerne les critiques, les avis sont partagés avec un clivage assez traditionnel entre experts/chercheurs et étudiants/jeunes/amateurs : les premiers ne les jugent utiles que si elles sont « éditoriales » ou professionnelles, les seconds sont prêts à exploiter des critiques rédigées par d’autres usagers.

Du point de vue de la qualité des données, le besoin d’accéder facilement à des ressources en ligne directement à partir des catalogues de bibliothèque demandera probablement une croissance de l’investissement concernant la gestion des métadonnées de liens et l’interopérabilité avec des données externes.

Les résultats : ce que veulent les bibliothécaires

Comme les usagers, les bibliothécaires définissent la qualité en fonction de leurs objectifs : mais ce sont des objectifs professionnels de type renseignement bibliographique ou sélection /acquisition. Ils se retrouvent avec les utilisateurs sur le besoin d’enrichissement pour évaluer les ressources (plutôt des tables des matières et des résumés que des couvertures, sauf pour les bibliothèques publiques). Mais ils sont aussi obsédés par le dédoublonnage.

Pour le reste cela varie beaucoup selon les types de bibliothèques et les zones géographiques. Les bibliothèques spécialisées accordent une importance particulière à l’ajout des tables des matières et aux liens vers des ressources en ligne. Les bibliothèques publiques s’intéressent plutôt à la mise à niveau des notices abrégées.
Même chose pour les fonctions : les besoins varient de manière importante entre un catalogueur, un directeur de bibliothèque, un agent de service public, un acquéreur… En commun à toutes les fonctions on retrouve le dédoublonnage, les tables des matières, et les liens vers des ressources en ligne.
Les catalogueurs ont des demandes particulières visiblement liées à la récupération de notices dans Worldcat : plus de notices pour des ressources non anglophones, correction et amélioration des notices. Les directeurs de bibliothèque attachent plus d’importance à l’enrichissement par des résumés et des couvertures. Les bibliothécaires de services de référence bibliographique accordent de l’importance aux résumés et aux localisations.

Autres résultats intéressants

L’étude est quand même très orientée livres. Il faut attendre la page 47 du rapport pour voir apparaître autre chose que de l’imprimé ! (il y est dit que les bibliothécaires qui travaillent au contact direct du public sont conscients de l’importance, pour les usagers, d’avoir accès à des contenus enrichis et à des formats autres que l’imprimé, notamment audio et vidéo. Faut-il en déduire que tous les autres bibliothécaires ne s’intéressent qu’au livre ?)

Les éléments de données considérés comme importants par les bibliothécaires sont liés à la recherche de documents précis. Par exemple, la présence de l’ISBN est une priorité essentielle pour nombre d’entre eux. Quand on leur demande ce qu’ils amélioreraient dans les données du catalogue si on leur donnait une baguette magique, les bibliothécaires répondent qu’ils mettraient des ISBN partout ;-)

Alors que les exigences des bibliothécaires sont liés à leur conception traditionnelle des données structurées, les utilisateurs en bénéficient (recherche avancée, facettes) mais n’en ont pas conscience – ce qui les conduit à ne pas exprimer que c’est important pour eux. C’est aussi pour cela que les bibliothécaires accordent plus d’importance à la correction des données.

La perception des besoins des usagers par les bibliothécaires montre une prédominance de l’enrichissement (couvertures, tables des matières, résumés). L’accès aux ressources en ligne vient seulement après, alors que c’est le premier choix des usagers, suivi de l’augmentation des accès sujets.

Conclusions

Il y d’importantes différences dans la perception de la qualité du catalogue, entre les usagers et les bibliothécaires. Cette différence est due à des objectifs différents, mais aussi à un écart de compréhension quant au fonctionnement des données structurées.
Le fait que les usagers trouvent utile la recherche avancée suggère que l’investissement dans la structuration fine des données et l’utilisation de formes contrôlées pour les noms et les sujets représentent un vrai bénéfice pour les usagers, y compris dans les catalogues de demain.

En ce qui concerne les bibliothécaires, leurs différentes fonctions affectent leurs priorités concernant la qualité des données. Les catalogueurs et les acquéreurs valorisent la structure formelle du catalogue, par exemple les index par champs et les autorités, et reconnaissent son importance.

Noter qu’entre l’ouvrage de Charles Cutter Rules for a Dictionary Catalog et les RDA, les principes d’organisation de l’information sont toujours les mêmes. Mais il n’est pas clair que ces principes ont vraiment été testés au regard des attentes des usagers.
Sur le Web, les principaux acteurs ont adopté une démarche à l’opposé : on ne conceptualise que très peu, on procède par essai-erreur. C’est ce qui a permis le développement des principes de « user-centered design ».
Ce qu’il faut maintenant, c’est intégrer le meilleur des deux mondes, étendre la définition de ce que nous entendons par « qualité » dans les catalogues en ligne, et déterminer qui en est responsable. Pour cela, il faudra :

  • augmenter les liens vers des ressources en ligne ou au moins des extraits
  • enrichir l’information sur le contenu (« subject information ») mais pas en utilisant l’indexation matière traditionnelle
  • prendre la mesure du rôle critique des identifiants (ISBN, et autres).

Recommandations pour ceux qui définissent les besoins des futurs catalogues (oui, je me sens un peu visée là, pas vous ?) :

  • analyser, comparer et rééquilibrer l’investissement de la bibliothèque dans les tâches de catalogage, de fourniture de liens et d’enrichissement de notices
  • explorer, avec des partenaires (bibliothèques ou autres) les différents moyens d’obtenir des enrichissements (par ex. des API -> détour chez Karl)
  • encourager la R&D pour améliorer le classement de pertinence
  • accorder plus d’importance aux fonctions d’accès aux ressources
  • automatiser la création des métadonnées et limiter la redondance des tâches, au niveau des réseaux de bibliothèques, et avec d’autres partenaires.

Identité et mémoire : la réputation des internautes sur le Web

Cet texte a été extrait d’un article rédigé récemment avec Clément Oury dans la revue Documentaliste, intitulé « Web 2.0 et mémoire : de la conversation à la conservation ». Ce passage avait dû être retiré car l’article était trop long. J’en ai profité ici pour le mettre à jour et l’enrichir de quelques nouvelles références. Merci à mes principales sources Brainsfeed, Internet Actu et Outils froids.

En faisant de l’internaute non plus un spectateur passif, mais un acteur à part entière de la production d’informations sur le Web, le Web 2.0 a profondément bouleversé les enjeux liés à la mémoire individuelle, en introduisant des technologies permettant à chacun de s’exprimer, de commenter, de contribuer, sur des types de sites diversifiés.

Dans le Web 2.0, l’internaute crée ou met en ligne des contenus qui autrefois restaient dans sa sphère personnelle. Sur Flickr, la proportion de photos de famille, d’amis ou d’animaux familiers est écrasante. Les premières études Médiamétrie sur la blogosphère (2005) montraient déjà une scission, avec une forte majorité de blogs ayant en moyenne un seul lecteur : c’était en particulier le cas des skyblogs, utilisés par les jeunes davantage pour communiquer entre eux que pour publier sur le Web (Voir par ex. Gautier Poupeau, « Blogs et Wiki, quand le Web s’approprie la société de l’information », BBF). Le succès de réseaux sociaux comme Facebook confirme un usage des technologies en ligne destiné à renforcer des liens existants, des communautés déjà soudées (Voir les premiers résultats de l’enquête « sociogeek » http://sociogeek.admin-mag.com/ portant sur l’exposition personnelle sur le Web). En parallèle, on voit se développer des tendances très fortes de création de communautés totalement virtuelles, comme par exemple sur YouTube, où un individu, seul devant sa Webcam, se lance dans une introspection dont la dimension intime est plus ou moins véridique, et autour de laquelle finit par se mettre en place un groupe de fidèles dont la croissance est soutenue par la dimension virale du média (Cf. Michael Wesh, « An anthropological introduction to Youtube », présentation à la Library of Congress, 23 juin 2008).

Or, il existe sur le Web 2 .0 une dimension paradoxale de la permanence des contenus : alors que les contenus les plus institutionnalisés ou travaillés reposent sur un investissement technologique de leur créateur (maintenance du site Web, renouvellement annuel du nom de domaine, etc.) et donc tendent à disparaître lorsque celui-ci s’en désintéresse ou n’est plus en mesure de les maintenir, les contenus générés par les utilisateurs et hébergés sur les plateformes 2.0 ont une permanence forte puisque ces plateformes continuent à fonctionner même une fois que leur auteur s’en est détourné. C’est ainsi qu’apparaissent sur le Web 2.0 des « friches », des blogs qui restent en ligne mais ne sont plus consultés ni mis à jour : ce serait le cas de 94 % des 133 millions de blogs nés en 2002 (d’après Françoise Benhamou, « Va-t-on vers la disparition des blogs ? » Rue 89, 3 décembre 2008).
Ainsi, alors que l’on voit de précieuses informations s’évanouir, d’autres ne veulent pas disparaître. D’innombrables données sont stockées, parfois à l’insu de leurs producteurs, par des sociétés commerciales, constituant un réseau d’informations personnelles sur lesquelles repose la réputation des individus. Des moteurs de recherche comme 123people se consacrent spécifiquement au recoupement de ces informations, et permettent en un clic de trouver, sur une personne, toutes les informations disponibles en ligne : photo, adresse, n° de téléphone, comptes Facebook, Twitter et autre, adresse du blog…

On parle maintenant d’identité numérique pour désigner ces données dont le recoupement pose questions. Des questions juridiques et économiques par exemple, comme celles explorées dans le rapport de la FING : Le nouveau paysage des données personnelles : quelles conséquences sur les droits des individus ? Mais aussi des problèmes techniques liés aux systèmes de gestion d’identité (voir Exposé sur les identités numériques à la Fulbi par S. Bortzmeier et Exposé pédagogique sur la cryptographie par F. Pailler pour le groupe PIN). Le site DatalossDB est un projet de recherche qui recense les incidents de pertes de données sensibles, de quoi se donner bien des frissons. D’autres projets de recherche explorent la question sous différents angles.

Alors, « Pourquoi sommes-nous si impudiques ? » En réalité, si les internautes consentent à fournir une quantité croissante d’information personnelle sur les sites du Web 2.0, c’est parce que cette information, de plus en plus, est maîtrisée. L’enjeu est moins de cacher les contenus nuisibles à sa réputation qui pourraient persister en ligne, le concept de « droit à l’oubli » s’avérant largement impraticable sur le Web, que de construire une image de soi dont l’objectif « promotionnel » tend à creuser l’écart entre la réalité et l’image donnée ou perçue, jusqu’au mensonge (Cf Hubert Guillaud, « Genevieve Bell : secrets, mensonges et déceptions », Internet Actu, 20 février 2008).
Le blog Doppelganger.name, tenu par trois consultants spécialistes en techniques managériales et en Web 2.0, étudie les rapports entre identité et réputation sur le Web : il montre comment les pratiques de recrutement sont aujourd’hui infléchies par cette réputation numérique.

Face au besoin de maîtriser son identité numérique, des ressources se mettent en place : comme cette liste de 300 et plus outils de gestion d’identité numérique ou ces conseils pour savoir comment effacer son profil sur les sites de réseaux sociaux. Pour éviter d’en arriver jusque là, on envisage de former les étudiants à la gestion de leur identité numérique, ce serait en effet la moindre des choses, et pas seulement pour des professionnels de l’information.

Identifiants pérennes

Il y a quelques temps, j’ai failli aller au salon Documation pour parler d’identifiants pérennes. Finalement, comme ça n’intéressait personne, la présentation a été annulée… En plus pour une fois je m’étais donné la peine de faire quelque chose de nouveau, au moins en partie.

Donc vu que ça n’intéresse personne je trouve ça très constructif de le mettre en ligne.

http://docs.google.com/EmbedSlideshow?docid=dhtrtz5w_30c38rzbfp

Ça m’évitera de continuer à me réveiller tous les matins en me disant que mon blog est en jachère depuis le 24 janvier, et que c’est mal.