Usages de l’internet

On a pris l’habitude de découvrir les intéressantes études du Pew Internet & American Life Project, qui nous racontent ce que font les gens sur le Web, mais hélas seulement aux Etats-Unis.

Cela vaut donc le coup de signaler quelques pistes pour connaître les usages de l’Internet sur le vieux continent, et notamment ce rapport portant sur le Royaume-Uni. La différence avec les études américaines est assez sensible. Ainsi, vous n’entendrez pas ici parler de blog ou de RSS…

Sur les usages en France, on peut consulter par exemple :

Alors bon, faut mettre un peu de piquant dans nos références…

DRM et libertés individuelles

La Commission européenne a publié un document de travail sur l’impact des technologies de protection des droits de propriété intellectuelle, plus connues sous le nom de DRM.

Selon ce document, les DRM menaceraient les libertés individuelles, en permettant de tracer les utilisateurs. Les DRM ont de plus tendance à dévier l’usage qui est fait des données personnelles : alors qu’elles devraient servir à un contrôle a priori, elle s’étendent à un traçage pouvant entraîner des poursuites en cas d’usage illégal a posteriori. Ces données forment aussi une base d’attaque intéressante pour le marketing – et ça, c’est mal.

Ce qui veut dire que si vous achetez docilement un fichier protégé en disant qui vous êtes, non seulement on va vous bombarder de pub pour que vous continuiez à acheter, mais en plus si vous faites une bêtise, on va se servir de votre acte d’achat honnête pour vous tomber dessus. Vive la technologie.

Tout est très bien expliqué, en français en plus, sur le blog de Luc Saint-Elie. Merci à Tristan.

L’identification pérenne des ressources numériques (3)

Dans les épisodes précédents (1 et 2), nous avons vu que définir un système d’identification pérenne de ressources numériques passait par le choix d’un certain nombre de propriétés et de fonctionnalités du système.

Ceci étant posé, l’heure est maintenant venue de faire un choix parmi les sytèmes d’identification pérenne existants aujourd’hui sur le Web.

Si on essaye de faire une typologie des différents systèmes, on se trouve bien en peine de trouver un critère qui permette de les classer tous. En fait, il y a plusieurs critères à prendre en compte, parmi lesquels on peut citer :

  • l’indépendance : il y a les systèmes où les identifiants sont donnés par le créateur de la ressource, et les systèmes où ils sont donnés par un tiers
  • l’unicité : il y a des systèmes qui garantissent l’unicité seulement au sein d’un système, d’autres qui la garantissent de manière totale et mondiale à l’échelle du Web
  • la structure : il y a des systèmes qui attribuent des identifiants opaques, ou aveugles, et d’autres qui donnent des identifiants signifiants
  • etc.

Je pourrais continuer comme ça presque indéfiniment. En fait, ce qu’il faut retenir, c’est que la plupart des systèmes combinent ces différents aspects à différents niveaux. Le choix va être difficile car il n’existe pas de critère de différenciation clair et net. Ils ont chacun leur façon de concevoir les choses, de les organiser.

Il est donc plus constructif de partir, non de leurs différences, mais de leurs points communs.

Les systèmes d’identification pérenne utilisent généralement tous une structure en trois parties de type :

SCHEME – NAMING AUTHORITY – NAME

Le « scheme », c’est un préfixe qui permet d’identifier le système dans lequel l’identifiant est unique. Par exemple, OAI, ARK, URN:NBN…

La « naming authority » ou autorité nommante, c’est une organisation qui a reçu, de l’autorité centrale en charge de définir le système, l’autorisation et le pouvoir d’attribuer des identifiants. Cette autorité peut être désignée par son nom, par un code attribué au sein du ssytème, par un code ou un nom codé qu’elle détient par ailleurs (comme un nom de domaine), etc.

Enfin, le nom, c’est une chaîne de caractères qui identifie la ressource de manière unique, au sein de ce système et pour cette autorité. En général, l’autorité nommante peut se retrouver assez libre de la façon dont elle structure ses noms, tant qu’elle garantit leur unicité en son sein. Elle peut aussi déléguer à une sous-autorité l’attribution de noms dans un domaine plus petit.

On voit bien comment, dans un seul identifiant, les critères que j’ai cités plus haut peuvent s’imbriquer : suivant l’existence et la nature du « scheme », l’unicité est garantie à une échelle plus ou moins importante. Suivant la façon dont l’autorité nommante est codée, cela détermine son degré d’indépendance, ou de dépendance à l’égard d’un système ou d’une autorité plus haute. Enfin, la structure de l’identifiant peut varier, au sein d’un même système, en fonction de chaque autorité.

Nous avons donc maintenant notre identifiant, du moins sa structure. Cependant, tout seul et sorti de son contexte, il est inopérant : nous avons besoin de savoir à quoi il correspond. Pour cela, deux types d’outils sont à notre disposition :

  • les résolveurs,
  • les métadonnées.

Je les garde pour la prochaine fois.

L’identification pérenne des ressources numériques (2)

On en était à définir les fonctionnalités de notre système d’identification pérenne. Faisons une petite liste de courses (librement inspirée de : RFC 1737 – Functional Requirements for Uniform Resource Names)

Unicité. Un identifiant doit bien sûr être unique pour garantir qu’il désigne une ressource et pas une autre. Mais unique à quelle échelle ? Il y a les identifiants qui sont uniques au sein d’un système, qui conviennent parfaitement pour un usage interne, bien circonscrit. Par contre, quand on se préoccupe de diffusion ouverte, d’échange, de référence, on cherche l’unicité à l’échelle du réseau, donc du monde. La même ressource, située à différents endroits, devrait avoir le même identifiant. Cela peut supposer une organisation plus ou moins centralisée à l’échelle internationale.

Pérennité. La pérennité est la clef de la stabilité de la référence et la principale problématique de l’utilisation des identifiants. Si on ne peut pas se contenter des URL, c’est qu’elles ne sont pas pérennes : si la ressource se déplace, son URL change. On peut comparer cela à une adresse postale : si on ne vous identifie que par votre adresse, et que vous déménagez, on ne peut plus vous retrouver. On identifie plus généralement les gens par leur nom, et ce nom, c’est l’identifiant. En général, la pérennité du système d’identification est garantie par la pérennité de l’institution qui donne les identifiants. Les institutions ou acteurs appelés à durer peuvent ainsi devenir des "autorités nommantes", à l’échelle d’une organisation locale, d’un pays, ou du monde.

Granularité. Les identifiants doivent être applicables à n’importe quelle échelle de la ressource : la ressource elle-même mais aussi la collection dont elle fait partie, les articles qu’elle rassemble, et pourquoi pas, le paragraphe de l’article (ou le commentaire du billet), et également différentes versions d’une même ressource. Il faut donc définir les différents niveaux de granularité de l’information qui doivent être identifiés, et comment cela va se décliner dans le système d’identification : le choix peut aller de l’attribution d’identifiants complètement indépendants à chaque niveau, jusqu’à un système hiérarchisé qui reflète l’organisation de la collection.

Adaptabilité. Les identifiants peuvent être capables d’intégrer des modèles préexistants pour le fournissur qui les utilise. Par exemple, les ISBN et ISSN, les cotes d’une bibliothèque, un système de nommage préexistant utilisé pour les URL ou les fichiers.

Extensibilité. On doit pouvoir les étendre et les adapter au fur et à mesure des évolutions du réseau, des standards du Web, des capacités des navigateurs.

Indépendance. Celui qui donne les identifiants doit pouvoir avoir une complète liberté et un complet contrôle sur ce qu’il fait de son système.

Résolution. Les identifiants doivent fonctionner, autrement dit, être compréhensibles pour un navigateur puisque c’est l’outil que nous utilisons pour parcourir le Web. A l’heure actuelle, les navigateurs ne savent pas interpréter tout seuls les URN, DOI et autres. Ils ont besoin qu’on leur fournisse, quelque part, la correspondance avec des URL : c’est le rôle du "résolveur".

Nous avons donc une autorité nommante mondialement reconnue, qui dispose de la liberté et de l’indépendance nécessaires pour attribuer à des ressources des identifiants pérennes, uniques, et capables de s’adapter à toutes sortes de situations, que les navigateurs interprètent à l’aide d’un résolveur. Il existe déjà, aujourd’hui, un certain nombre de systèmes qui répondent à ces critères. J’aborderai leurs caractéristiques dans le prochain billet.

L’identification pérenne des ressources numériques

Quand on crée des ressources numériques en ligne, qu’il s’agisse de numérisation, d’une édition ou tout simplement d’une entrée de blog, on se demande comment leur donner une identification fiable et durable sur le réseau.

La problématique de l’identification pérenne a des implications multiples que je vais essayer d’aborder (pas en un seul billet !).

La première question qu’on doit se poser, c’est pourquoi ? Ou plus précisément, quel objectif on cherche à atteindre. La terminologie reflète déjà deux axes possibles. Quand on dit référence stable, ou lien permanent, on se préoccupe manifestement de la capacité d’un tiers à nommer et retrouver la ressource : autrement dit, la citabilité. Quand on parle d’identifiant, ou URI , on est plutôt dans une problématique d’unicité et de pérénnité dans le cadre d’une utilisation pratique par des machines.

Déjà, dans ces deux optiques, il y a un choix à faire. Un identifiant peut être plus facilement généré par une machine. Celle-ci va tabler sur des combinaisons alphanumériques très longues pour garantir l’unicité, ce qui ne lui pose pas de problèmes particuliers, mais est ingérable pour un utilisateur humain.

La citabilité a elle aussi plusieurs dimensions. Les systèmes d’identification comme DOI par exemple ont l’avantage de constituer une référence que le lecteur peut retenir pour établir ses citations. C’est un modèle de confiance. Cependant, le lecteur doit partir à la recherche de cette référence dans la description de la ressource : elle n’apparaît pas dans la barre d’URL. Le lecteur non averti va plutôt se contenter de copier-coller l’URL, ce qui n’aura pas fait avancer beaucoup la stabilité de sa citation.

Il y a aussi une idée répandue selon laquelle une URL « citable » doit être intuitive, c’est-à-dire : signifiante, et rédigée en langage humain. En fait, si on reprend le raisonnement du copier-coller, cela ne change pas forcément grand-chose à la citabilité. Par contre, cela peut poser un certain nombre de problèmes. Si on utilise le titre, on est confronté aux caractères peu adaptés aux URL, ne serait-ce que les espaces et les accents. De plus un titre n’est pas forcément unique : il m’arrive souvent de reprendre plusieurs fois le même titre de billet. On peut utiliser un élément plus stable, par exemple un autre numéro de référence comme l’ISBN et l’ISSN. Malheureusement, la vie de ces numéros n’est pas forcément aussi pérenne et unique qu’on le voudrait : si une revue change de titre, elle change aussi d’ISSN.

Il faut donc bien réfléchir à ce qu’on attend de son système d’identification pérenne, définir ses fonctionnalités. C’est la première étape. On verra ça en détail dans la suite.

Mon moteur et moi

Encore un rapport du Pew Internet & American life project : cette fois sur les usages des moteurs de recherche.

Les conclusions du rapport sont assez prévisibles : les internautes sont satisfaits de leurs moteurs de recherche préférés et ils ont tendance à être fidèle à un, voire deux outils. Par contre, ils ne sont pas très au fait des implications politiques et économiques de l’usage des moteurs. Un des paradoxes soulignés dans le résumé, par exemple : seul un utilisateur sur 6 pense pouvoir différencier clairement les liens sponsorisés ou payés, alors que la moitié d’entre eux déclarent qu’il cesseraient d’utilser leur moteur préféré s’ils pensaient que sa politique à ce sujet n’est pas claire.

Cela montre assez bien la relation ambigue de l’internaute à son outil. Entre une méfiance théorique et une pratique presque inconsciente, il n’y a parfois qu’un pas. Et vous, seriez-vous prêts à vous passer de votre moteur de recherche préféré ?

Et si on arrêtait de faire des métadonnées ?

Cet article (pdf) au titre un brin provocateur était arrivé dans mes fils dans le lot nombreux de documents en tous genres sur les métadonnées, et je ne pensais pas m’y attarder plus que ça.

Mais comme il commence par une amusante parabole et que j’adore ça, je me suis laissée prendre par sa lecture, et même intéresser par cette proposition ô combien indécente : et si on faisait un moratoire sur les métadonnées ?

De fait, les idées exposées par l’auteur de cet article ont un côté pragmatique assez séduisant. Le constat est le suivant : le travail élaboré depuis 10 ans sur les métadonnées, notamment avec Dublin Core, MPEG-7 pour les vidéos, et le Web sémantique, est arrivé à un certain plafonnement. On s’aperçoit aujourd’hui (toujours d’après l’auteur de l’article, je précise) que rien ne remplace en performance et en pertinence la recherche plein-texte. Et pourtant, pour ce qui est de la recherche de documents multimédias, on n’a pas vraiment avancé. On sait aujourd’hui que quel que soit le nombre de mots qu’on accolera à une image pour la décrire, il sera impossible d’anticiper tous les usages. Quant aux métadonnées techniques qui sont les seules qu’on extrait automatiquement, elles se révèlent inutiles quand l’objectif est de trouver.

L’auteur propose de valider une bonne fois les acquis puis de cesser de faire des métadonnées, ou plutôt de cesser au moins pour un temps d’aborder la perspective de la recherche d’information à travers la problématique de la description. Il faut trouver d’autres voies.

Ce qui m’a plu dans cet article, c’est la réflexion sur la description de l’image. Quand on s’intéresse de près aux images, on sait très bien qu’aucune description ne peut remplacer notre oeil et notre perception humaine, même hyper-rapide sur un microfilm qui déroule à tout allure, par exemple. Par contre, je suis sceptique quant à la capacité de programmes informatiques à effectuer cette analyse optique à notre place. Il y aurait beaucoup trop de paramètres à entrer, dont certains sont purement intuitifs.

Je reste partisanne, mais je le disais déjà hier, d’outils qui facilitent le « scannage » humain de collections massives d’images : des outils de navigation simples, efficaces, avec des classifications pertinentes plutôt qu’une véritable indexation. Evidemment pour des sons et même des vidéos c’est beaucoup moins évident.

Internet, une menace pour les bibliothèques ?

Alors que Google se lance dans une numérisation de masse sans précédent, décidé à faire entrer le livre dans le Web dans des proportions jusque-là inégalées, on se demande si les bibliothèques devraient trembler de peur devant ceux qui annoncent que bientôt, complètement dépassées par l’Internet, elles devront fermer leurs portes.

En ce qui concerne les américains, on peut dire qu’ils sont plutôt confiants. Cet article rapporte les résultats d’une étude qui montre au contraire que sur les cinq dernières années, l’usage d’Internet et celui des bibliothèques aux Etats-Unis ont été parfaitement complémentaires. Une population jeune, avec un niveau d’éducation élevée, tend à utiliser aussi bien les bibliothèques qu’Internet dans une démarche de recherche d’information globale.

La présidente de l’ALA citée dans cet autre article fait la même constatation sur l’augmentation de la fréquentation des bibliothèques américaines depuis l’explosion du Web.

Les bibliothèques ont donc encore de beaux jours devant elles, pour peu qu’elles se montrent capables de suivre le mouvement. Comme le suggère ce plaidoyer pour que la bibliothèque nationale canadienne numérise l’intégralité de son fonds (à condition que l’Etat fasse en sorte qu’elle puisse en avoir le droit).

Tout ceci est bel et bien, et nous laisse imaginer que les bibliothèques numériques devraient prendre un poids important dans le Web, étant donné la masse de contenu qu’elles ont déjà à leur disposition. Mais quand on lit les conclusions du dernier rapport du Pew Internet & American Life Project, qui analyse une enquête menée auprès d’experts du Web sur les tendances futures, on se dit qu’il y a du souci à se faire. Même s’il évoque une menace pesant plutôt sur les actualités et la publication dans les formes où on les connaît actuellement, ce rapport flagelle le manque de dynamisme des institutions. Et les bibliothèques y sont à peine évoquées, ce qui n’apparaît pas comme un signe très prometteur.

La question n’est sans doute pas de savoir si les bibliothèques sont ou non menacées par Internet. Mais bien plutôt de savoir quelle sera l’ampleur de la remise en cause nécessaire pour les adapter à un monde régi par d’autres règles et d’autes modèles que ceux qui ont toujours été les leurs.

Merci à Peter Scott, ShelfLife, et ResourceShelf.

(Je sais pas ce que j’ai à être aussi sérieuse ce soir, ça doit être un résidu des discussions animées du week-end ;-)

Wiki-bibliothèque numérique

On parle beaucoup en ce moment de wikipedia, l’encyclopédie libre, et de wikinews, le site d’actualité libre. Validation de l’information et tout ça, je ne relance pas le débat.

Par contre, avant de lire ce billet de S. Bailly, je n’avais jamais entendu personne s’extasier sur Wikisource : une bibliothèque numérique libre.

Le projet : un site wiki pour permettre à n’importe qui de mettre en ligne des textes libres de droit. On y trouve de tout, de la littérature aux sciences en passant par, devinez quoi… les sources historiques. C’est vrai, quoi, si chacun mettait ses transcriptions d’actes du 17e siècle en accès libre sur un wiki, il y aurait moins de travail pour les paléographes. Mais si vous voulez mon avis, le problème de la validation reste plus que jamais entier.

Ethique de blogs

J’ai suivi cette semaine une série de post faits par nos amis les bibliothécaires américains sur la question de l’éthique du blogueur en général, du blogueur bibliothécaire en particulier.

Tout commence chez Karen Schneider qui explique la différence d’exigence d’éthique entre un blogueur et un journaliste.

Blog Ethics Analysis 2004 est un blog "de recherche" entièrement consacré à ce sujet. Je n’ai pas encore eu le temps d’y jeter un oeil.

Chez Library Stuff, on se pose la question de savoir s’il faut dire à son employeur qu’on blogue. Lui il pense qu’on a le choix, mais que quand on aborde des sujets professionnels, ça vaut quand même mieux.

Enfin côté français, un article intitulé Peut-on tout dire sur son blog ? qui éclaircit notamment la question des rapports avec l’entreprise et l’employeur pour le blogueur.

Pour ma part, je pense qu’il est sain d’avoir quelques règles éthiques simples, du type citer ses sources, vérifier ses informations, ne pas effacer ses billets, n’agresser personne, etc. Comme dirait Karen-Schneider,

…librarians, in particular, need to be very cautious when they blog. This is a meta-ethical issue: when you blog as a librarian, even as a librarian "just goofin’ around," you are representing what people think about librarians. Yes, that weight IS on your shoulders…

Quant à moi, mon éthique personnelle m’impose de vous annoncer que je pars en vacances, et qu’une période d’activité réduite, voire nulle, de 15 jours est à prévoir sur le Figoblog.