Sem Web Pro

Ces deux derniers jours, j’ai participé à la conférence Semweb.Pro. L’objectif de cette première édition était, je crois, de montrer qu’il existe une communauté professionnelle et des applications industrielles pour le Web sémantique en France. Et l’objectif a, je crois, été atteint !

Environ 130 personnes étaient présentes entre les deux journées : la conférence proprement dite le 1er jour, et les tutoriels le 2e jour. Quelques impressions à chaud…

J’ai beaucoup apprécié l’ouverture d’Ivan Herman, qui a fait le point sur les travaux en cours dans le domaine du Web sémantique au W3C, de la nouvelle version de SPARQL aux travaux qui vont démarrer sur « RDF next steps », en passant par les évolutions de RDFa. Bon c’est vrai, dès le matin à 9h, les requêtes SPARQL direct c’était un peu sévère ;-) mais au moins ça annonçait la couleur.

Ensuite, nous avons assisté à 4 présentations de produits qui permettent de publier des données en RDF : EMFtriple, CubicWeb, Semsoft et Asterid. Personnellement, cette partie de la conférence m’a moins emballée, mais je pense que c’est juste parce que ça ne correspondait pas à mes centres d’intérêt à ce moment-là.

L’après-midi la parole était aux producteurs, avec une table ronde sur l’ouverture des données publiques (à laquelle j’ai participé), et la présentation de la BBC (j’adore toujours autant leurs réalisations, c’est vraiment excellent).
Enfin quelques réalisations intéressantes : SemWebVid pour annoter des vidéos automatiquement, les explications d’Antidot sur l’utilisation des technos du Web sémantique dans un moteur de recherche, et Datao pour les interfaces graphiques.
Ça s’est terminé avec des « lightning talks » auxquels je n’ai malheureusement pas pu assister.

Deuxième jour, les tutoriels : c’était dur, il fallait choisir ;-) mais je dois dire que tous ceux auxquels j’ai assisté étaient de grande qualité. Grâce à Got je n’ai plus peur de RDFa… et je salue tout particulièrement le travail de l’équipe Datalift, je pense que leurs diapos feront date dans le monde du Web de données français.

Pour finir, je tire mon chapeau aux organisateurs de la conférence pour la logistique, les salles, le café, les croissants, le wifi, le fil twitter, le déjeuner au self du coin, tout ! Et ce qui était surtout agréable c’était de voir réunie toute la communauté et de partager ces deux jours avec tout plein de gens passionnants. J’espère qu’on remettra ça l’année prochaine !

Publicités

Vers l’epub 3.0

Lu dans une dépêche du GFII, l’International Digital Publishing Forum (IDPF pour les intimes) annonce qu’ils vont lancer un travail pour refondre le format « epub », l’un des formats les plus en vogue du « livre numérique ».

(En écrivant cela, je me rends compte que je n’ai encore jamais parlé de livres numériques sur mon blog, ce qui prouve à quel point j’ai laissé se creuser le fossé entre ce que j’absorbe dans ma veille et ce que j’en restitue. Mais bon, tout est là, dans TeXtes… Et puis j’ai pris des bonnes résolutions, comme vous pouvez le constater).

Bref, on peut consulter en ligne le projet de charte du groupe de travail qui va se pencher là-dessus. Il identifie 13 axes d’amélioration pour le format epub :
1. permettre d’embarquer des contenus « riches » (multimédia)
2. meilleur support des langues et des caractères non latins
3. support du niveau « article » pour les journaux et revues
4. support amélioré des métadonnées (ONIX, RDFa)
5. meilleure gestion de la présentation au niveau de la page
6. amélioration de la navigation (table des matières…)
7. alignement avec les standards du Web
8. mécanismes d’annotation
9. représentations mathématiques
10. éléments spécifiques à la structure des livres (glossaires, références)
11. accessibilité (avec DAISY)
12. possibilité d’ajouter des extensions spécifiques à un domaine métier
13. enfin, élaborer une feuille de route pour mettre epub en relation avec les normes officielles au niveau national et international.

Les changements seraient suffisamment importants pour justifier une version « 3.0 » d’epub (tiens, ça manquait de 3.0 ce billet justement ;-) et d’ores et déjà, une convergence avec HTML5 est envisagée.

Si vous pensez que cette liste n’est pas complète, vous avez jusqu’au 20 avril pour répondre à l’appel à commentaires public lancé par l’IDPF.

Qui n’URIsque rien n’a rien

En reprenant mes « vieux » diaporamas sur les identifiants, je me rends compte que j’ai contribué à propager des idées fausses sur les URL et les URI, belles métaphores à l’appui, notamment en proclamant que « une URI est la combinaison d’un nom et d’une localisation » ce qui a pu être compris un peu vite comme « URI=URL+URN ».

Je fais amende honorable en proclamant ici que les URL sont des URI.
Les URN aussi sont des URI, la seule chose de particulier qu’elles ont, c’est qu’elles commencent par « urn: ».

Il faut se débarrasser de la vieille idée reçue que les URL correspondent à une localisation d’un fichier sur un serveur. C’est de moins en moins souvent le cas sur le Web aujourd’hui. Les URL générées par les outils de gestion de contenu, par exemple, sont en fait des paramètres qui permettent de dire au logiciel comment accéder à la ressource.

Une URL, c’est donc
– une URI (parce qu’elle en respecte la syntaxe)
– qui commence (en général) par « http: » (qui est un préfixe d’URI enregistré et donc reconnu)
– qui identifie une ressource principalement par le mécanisme qui permet d’y accéder (par exemple, son emplacement sur le réseau).

Ce mécanisme peut être le nom du fichier et son emplacement sur le serveur.
Il peut être aussi une série de paramètres qui appellent une base de donnée, via un logiciel.
Ou une chaîne de caractères qui va être interprétée grâce à un annuaire qui « sait » où se trouve la ressource en question.

En conséquence de quoi, les URL sont des URI et peuvent prétendre à la pérennité, autant que n’importe quel autre type d’URI, pour un peu qu’on les gère correctement.

Les rapports et différences entre URI, URL et URN sont expliqués dans la RFC 3305.

Archives du Web : une vision

Pour commencer l’année sur une note lyrique, j’ai envie de revenir sur quelques réflexions qui me sont venues lors d’IPRES et de la journée « Active Solutions » d’IIPC. En effet, à cette occasion, pas seulement parce que je me trouvais en Californie, qu’il faisait brumeux le matin et soleil l’après-midi et que San Francisco est une ville magnifique, mais aussi parce que j’étais bien entourée et parce que les organisateurs desdits événements ont fait un boulot superbe, j’ai eu l’impression de transcender la connaissance que j’avais de l’archivage du Web, ses modalités et ses finalités.

Pour comprendre, il faut dire que je côtoie l’archivage du Web depuis maintenant quelques années, géographiquement et intellectuellement, et de suffisamment près pour m’être forgé quelques idées fausses (ou idées reçues) sur cette activité. Pour les énoncer un peu comme ça en vrac :
– l’archivage du Web, c’est intrinsèquement lié au dépôt légal ;
– les utilisateurs sont des gens du futur qu’on ne connaît pas et dont on ignore les vrais besoins ;
– les gens qui font de l’archivage du Web sont une toute petite communauté avec des compétences et des besoins très spécifiques.
Et oui, il a fallu que je traverse la planète pour enfin comprendre la portée de cette activité qui se déroulait juste là, à côté de moi, sous mes yeux depuis des années.

D’abord, je me suis rendu compte que l’archivage du Web, ce n’est pas seulement le dépôt légal, et de fait, cela ne concerne pas que les bibliothèques nationales. L’archivage du Web est un ensemble de techniques qui permettent de constituer une collection locale et pérenne à partir de contenus accessibles en ligne. En fait, il y a une multitude d’applications possibles à cela : archiver des périodiques en ligne comme le fait LOCKSS, constituer des collections de sources pour des équipes de chercheurs d’une université, archiver ses propres publications Web pour en garder la mémoire, etc.
Vu comme cela, l’archivage du Web peut être utilisé par tout type d’établissement, et à une variété d’échelle. Les « private LOCKSS networks » utilisent ainsi le dispositif technique de LOCKSS, à l’origine conçu pour collecter des revues en ligne, pour collecter des archives Web partagées de toute sorte. Le service « Archive It » proposé par Internet Archive permet à des institutions qui n’ont pas les moyens de mettre en place des processus d’archivage du Web de constituer quand même ce type de collections, en se reposant sur un intermédiaire technique. Bref, dès lors qu’on est capable de cibler les besoins d’un public et de s’organiser en processus, on peut constituer une collection, dont le public en question n’est donc pas forcément lointain et hypothétique : il existe un besoin et un public pour les archives du Web, tout de suite, maintenant.
En fait, dans un monde où la plupart des médias et des contenus que nous connaissons effectuent une translation vers le Web, les archives du Web permettent d’envisager l’archivage de ce qui n’est pas archivable, c’est-à-dire tout le contexte d’une activité ou d’un événement tel qu’il transparaît à travers les publications et les conversations sur le Web. Tout est là, disponible, en ligne : les logiciels, les réseaux sociaux, les données et les sources que les chercheurs utilisent, la documentation que les utilisateurs créent eux-mêmes sur leur vie et mettent en ligne. Ainsi, la meilleure façon de donner une idée dans le futur de ce que sont les mondes virtuels comme Second Life, n’est-elle pas d’archiver les blogs, les copies d’écran, les extraits vidéo… qui sont la capture, par les utilisateurs eux-mêmes, de ce qui se passe dans ces univers…
C’est ici que cela fait vraiment sens de parler « d’archivage » du Web, car on est dans des démarches documentaires qui travaillent sur la source, le contexte, le fonds, dans une logique plus proche de l’archivistique que de la bibliothéconomie.

Là où cela devient intéressant, c’est que ces archives du Web de toute nature, ces collections, elles ont une homogénéité matérielle sans précédent. A l’image du matériau qui les constituent, les collections Web sont totalement granulaires, et intégrées : elles sont à la fois constituées d’unités très petites, et à la fois globales car toutes ces unités sont compatibles entre elles. De plus, elles sont élaborées par une communauté qui a su s’organiser pour partager ses outils, ses formats, ses processus.
Ce qui fait que les archives du Web sont en fait une grande collection partagée, techniquement et structurellement homogène. C’est la politique documentaire qui fait la spécificité des différents « nœuds » de cette grande collection, qui justifie que telle bibliothèque conserve telles données, et telle autre, etc.
Qui dit homogénéité technique et collection partagée suppose une approche de la préservation numérique cohérente et globale. Les travaux effectués sur le format WARC (qui permet de stocker les archives du Web et de les exploiter) laissent entrevoir une réflexion plus que prometteuse en ce sens : en effet ce format a été réfléchi dès le départ pour intégrer les problématiques de gestion des fichiers mais aussi de leurs métadonnées, y compris les métadonnées techniques et de provenance si nécessaires à la préservation. Il gère aussi les liens entre les fichiers, les versions, les métadonnées.
Du point de vue des stratégies de préservation, il me semble que les archives du Web nous ont fait vraiment avancer en nous obligeant à reconsidérer la traditionnelle opposition binaire entre migration et émulation. Il y a quelques années, on pensait qu’on ne pourrait jamais préserver quoi que ce soit sans migrer. Puis revirement à 180° : on s’est rendu compte qu’on n’aurait pas les moyens de migrer, et tout à coup on ne jurait plus que par l’émulation. Les stratégies envisagées actuellement sont plus subtiles, elles cherchent à combiner les deux approches, à trouver un équilibre. Il n’y aura pas de traitement unique et radical pour la conservation à long terme d’un matériau aussi divers, souple et mouvant que les archives du Web.

Évidemment, nous sommes encore au début de l’histoire des archives du Web et il y a encore des problèmes, d’énormes problèmes (c’est le mot) : d’abord la masse… Des millions ou milliards de fichiers… des centaines ou milliers de Teraoctets… des dizaines ou centaines de formats… nous sommes face à une échelle qui peut donner l’impression d’un défi un peu fou, limite décourageant.
La maturité des outils et des processus laisse encore à désirer, face à des choses qu’on n’a pas encore essayé de faire et qui sont donc encore au stade de la théorie (comme migrer l’ancien format de stockage des archives Web, ARC, vers le nouveau format normalisé WARC) : il va falloir progresser à petits pas, expérimenter, commencer petit sans se laisser démonter par l’ampleur du chemin à parcourir.
Et puis il y a le Web lui-même, dans ses composantes les plus complexes : le web caché (dans des bases de données) – le Web verrouillé (derrière des mots de passe ou des DRM) – le Web exotique et bizarre (en termes de formats de fichiers, qui chaque jour naissent et meurent…) – le Web spammé et vérolé (mais c’est quand même le Web : ne faut-il pas aussi en garder la mémoire ?)

Mais malgré tout, je me disais, là-bas à San Francisco, que cette petite communauté (mais pas si petite que ça en fait) des Web-archivistes, avec son action pragmatique, efficace, une fois qu’elle aurait avancé et résolu ces problèmes, allait nous aider à absorber d’une façon plus globale les défis de gestion et de préservation des autres types de collections numériques.
A San Francisco, j’ai eu une vision : celle d’une révolution copernicienne. De la même façon que le Web est en train d’absorber l’information du monde, les archives du Web finiront par se présenter assez naturellement comme la solution technique la plus simple pour traiter, par exemple, la collecte de machins numériques de toute sorte, le versement de ces machins dans les systèmes de préservation, la migration de gros volumes de données, le pilotage des stratégies d’émulation, la gestion des moyens, des coûts et des indicateurs, etc. etc.
Enfin, parmi les trucs (le « contexte ») que l’on va pouvoir archiver sur le Web, il y aura aussi tous les facilitateurs de préservation numérique : la documentation des logiciels et des formats par exemple.
C’est un peu fou de penser qu’aujourd’hui, on a une approche complètement dissociée de nos techniques documentaires traditionnelles et de l’archivage du Web. Ainsi, toutes les travaux de constitutions des répertoires de formats (Pronom, UDFR etc.) ont mis tout ce temps à déboucher sur une initiative expérimentale de publication dans le linked data appelée P2. Dans le linked data, c’est à dire sur le Web. Pourquoi on se tuerait à inventer des processus de réplication, de partage de données, etc. alors qu’ils existent déjà, entre le Web sémantique et les archives du Web…
Pareil pour la gestion des collections d’objets numériques. On est en train de construire des usines à gaz spécifiques pour gérer les millions de fichiers qu’on produit dans le cadre de nos ambitieux programmes de numérisation. Franchement c’est du très beau travail, mais je suis sûre qu’on finira par se réveiller un matin et se rendre compte que les bibliothèques numériques ne sont qu’une collection Web parmi d’autres. Non ? Et qu’avec l’archivage du Web, on a déjà des solutions scalables, pragmatiques, efficaces.
Il reste un truc qui me manque dans cette vision, c’est de savoir comment on pourrait rapprocher tout cela de nos réflexions sur la publication des données de bibliothèques dans le Web sémantique. Tout est une question de données qui sont là présentes sur le Web et qu’on relie entre elles. Il me semble que si on arrivait à progresser vraiment sur la publication des données structurées dans le Web sémantique, en utilisant des technos vraiment Web comme le fameux HTTP-range14 (plus connu sous le nom de « Cool URIs for the semantic Web »), on arriverait aussi à faire progresser les services qu’on est capable de construire sur les archives du Web ; de faire un peu mieux que la recherche par URL et la recherche plein-texte à pertinence relative ; et peut-être même de construire des choses intéressantes en matière de collecte ciblée et de stratégies de continuité de collection et de conservation.
Mais pour l’instant tout ceci n’est encore qu’au stade de l’intuition.

Pour en savoir plus, deux articles à lire dans l’ouvrage Les collections électroniques, une nouvelle politique documentaire (sous la dir. de Pierre Carbone et François Cavalier, éditions du Cercle de la Librairie, collection Bibliothèques, 2009) :
– « Quelle politique documentaire pour l’archivage des sites internet » par Gildas Illien et Clément Oury
– et « La conservation des documents numériques » par votre serviteuse.

Modéliser le Linked Data

Quand on se lance dans la modélisation, je suppose qu’à un moment on atteint un degré de complaisance (ou peut-être de folie furieuse) qui amène à tout théoriser, et pour que le modèle tienne la route, on finit par être obligé de créer des modèles qui expliquent comment on modélise les modèles.

Ça va vous paraître fou, mais en fait, c’est utile.

En juin j’ai visiblement raté une bonne occasion d’aller à Madrid pour la conférence Linked data on the Web 2009.
A noter dans les papiers de cette conférence, deux propositions intéressantes pour aider à modéliser le Linked Data.

La première, c’est IRW : Information Resources on the Web Ontology, par Harry Halpin et Valentina Presucci.
Pour les puristes, l’ontologie elle-même est ici.
Cette ontologie s’attaque à des notions sur lesquelles on peut gloser pendant des jours : les ressources informationnelles et non informationnelles, les représentations, les réalisations Web d’une ressource, et leurs URI respectives. La seule question qu’elle ne pose pas (probablement par pudeur ;-) c’est… la notion de document.

L’autre c’est un vocabulaire pour gérer la provenance dans le Linked Data, par Olaf Hartig de l’Université Humboldt de Berlin.
La spécification est ici pour les puristes, et pour ceux qui aiment plutôt les petits dessins, le powerpoint est .
Il s’agit de contribuer à l’établissement de la confiance dans le Linked Data en modélisant les informations de provenance qu’on peut associer à un ensemble de données.

Il y a plein d’autres trucs intéressants dans cette conférence. C’est juste que j’ai pas encore eu le temps de regarder.

La notion de document dans le Web sémantique

Ce billet est petite pierre à ajouter à la série de Got :
– les carcans de la pensée documentaire (1) et (2)
l’antilope sur le Web
Que vous trouverez brillamment résumés chez Hubert.

Dans le Web sémantique, on décrit le monde sous forme de triplets sujet – prédicat – objet. Chaque triplet est indépendant : ce qui veut dire qu’il doit pouvoir être compris sans avoir besoin de contexte, ou du moins, d’autre contexte que la connaissance des entités qui sont représentées par les URI.
Plus j’avance dans ma connaissance du Web sémantique, plus je suis persuadée que les identifiants – les URI – sont la clef de tout. Une fois qu’on a conçu correctement ses URI, tout le reste coule de source.

URI abstraites, URI concrètes
Quand j’ai commencé à travailler sur les identifiants ARK, nous avons introduit dans la notion d’identifiant une différence entre ressource abstraite et concrète.
Une ressource que nous considérions comme abstraite, intellectuelle, par exemple un document numérique comme celui-là, était potentiellement mouvante : bien que son contenu soit toujours le même, sa présentation, sa forme, et les fonctionnalités associées pouvaient changer.
Au contraire, une ressource concrète correspondant à ce document dans un certain format (mode texte ou mode image, tiff ou jpeg…), dans une certaine qualité (par exemple haute et basse résolution), ou dans un certain contexte de visualisation (en pleine page, avec sa table des matières, sous forme de vignettes…) était définie comme stable.
Dès le départ, nous avons donc défini que chaque objet numérique aurait une URI abstraite, en l’occurrence ark:/12148/bpt6k28585w, et plusieurs URI concrètes permettant d’appeler ses formats, résolutions, contextes etc. Par exemple : http://gallica.bnf.fr/ark:/12148/bpt6k28585w.texte pour le visualiser en mode texte dans Gallica, ou http://catalogue.bnf.fr/ark:/12148/bpt6k28585w/f46 pour visualiser la 46e image dans le contexte du catalogue.

Ce choix (qui n’avait rien à voir avec le Web sémantique à l’époque) m’a bien aidée à comprendre ensuite certaines notions liées à l’utilisation des URI dans le Web sémantique, qui est décrite dans la note du W3C « URIs sympas pour le Web sémantique » (déjà évoqué succinctement ici).

Dans Gallica, l’URI abstraite ne correspond à rien d’autre qu’à une page Web qui est la représentation que nous avons décidé de donner, à un instant T, de ce document dans Gallica. Si je ne vous avais pas dit qu’il y avait une URI abstraite, vous n’auriez aucun moyen de le savoir.
Dans le Web sémantique, au contraire, on utilise effectivement l’URI abstraite d’une ressource pour effectuer un certain nombre d’assertions sur cette ressource : les fameux triplets.

La matérialisation des triplets
Évidemment, ces triplets sont comme tout en ce monde : ils ont une matérialisation. C’est-à-dire que si on veut en faire quelque chose, il va falloir les faire passer du monde de la pensée abstraite au monde physique, et pour cela les exprimer d’abord en terme de modèle (je choisis comment je formule ma phrase, ou mon triplet), puis les manifester en termes de support (j’inscris ma phrase ou mon triplet sur un support, fut-il numérique). J’emploie à dessein les termes d’exprimer et manifester, je suis sûre qu’il y en a qui me suivent ;-)
Pour des raisons de commodité évidente, on n’exprime pas chaque triplet sur un support indépendant du triplet voisin. On les regroupe dans des … documents (ou dans dans une base de données, mais vous noterez que Got assimile, très justement à mon avis, l’enregistrement dans une base de données qu’est une notice bibliographique à un document). Cela permet d’alléger un peu la syntaxe (RDF étant quand même pas mal verbeux) en ne répétant pas tout le temps l’URI dont on parle, et de regrouper dans un même support, comme un fichier RDF/XML, un ensemble de triples qui concernent la même ressource (par exemple).

Ce qu’il est important de comprendre, c’est que ce regroupement des triplets dans un document est, en principe, non signifiant : on peut, en théorie, choisir de manière libre et arbitraire quels triplets on regroupe dans un fichier, et quels triplets on met ailleurs. Je dis bien en théorie, car en pratique, et c’est là que je rejoins JMS dans son dernier commentaire, l’inscription des données dans un document n’est pas juste un hasard. Elle correspond généralement à une formalisation suivant un protocole défini et qui permet aux gens (les machines, elles, s’en foutent) de reconnaître la structure de l’information qui leur est proposée et d’en faciliter la manipulation.

Mais je m’éloigne de mon propos.

La fixation des triplets dans un document n’est qu’une des représentations possibles de l’information qu’ils contiennent, et c’est ça qui est intéressant dans le Web sémantique. Pour une même ressource abstraite, je vais pouvoir proposer différentes représentations, qui varieront suivant la forme (je peux décrire une seule ressource dans un fichier, ou plusieurs), la qualité (je peux retenir 10 triplets concernant cette ressource ou en retenir 100) ou encore le contexte (choisir certains triplets plutôt que d’autres) que je souhaite donner à mon information.
A cette étape là on définit ce qu’on appelle le « generic document » ; qui équivaut à la manifestation des triples qu’on a choisis sur un support et qui a lui-même une URI, différente de celle de l’entité abstraite.

Le Web de données et ses documents
Le travail sur le <a href="http://linkeddata.orglinked data a été à l’origine de réflexions importantes concernant la représentation des données en RDF sous forme de documents. L’objectif du linked data étant de rendre des données disponibles sur le Web, il a paru rapidement utile de pouvoir les fournir sous forme de données (pour les machines) mais aussi sous forme de pages Web, c’est à dire de documents (pour les humains).

C’est là qu’entre en scène le mécanisme de négociation de contenu, qui est décrit justement dans la note en question du W3C. La négociation de contenu sert à gérer le passage de l’URI abstraite au document. En gros (je caricature), on envoie à un serveur une URI abstraite, il en déduit l’URI du generic document, puis il regarde si vous êtes un humain ou une machine avant de vous renvoyer soit une page Web, soit un ficher RDF.
Ce dernier niveau, le niveau technique, visible, pratique, c’est ce qu’on appelle le « Web document » ; qui correspond à une formalisation précise du « generic document », une représentation dans un format particulier.

Le Web de données vu comme une publication
Là je vais tordre un peu le cou à nos concepts bibliothéconomiques habituels, mais imaginons que nous essayions de qualifier le Web de données comme une publication, ou un ensemble de publications.

En terme de modèle documentaire, si je prends une idée (une œuvre par exemple) et que je la mets en RDF, son expression est à la fois atomisée (sous forme de triplets) et illimitée (de par les liens avec d’autres triplets). Le nombre de manifestations, ou documents, que je peux en tirer est potentiellement infini. Et il peut y avoir plusieurs items ou documents techniques qui représentent chaque manifestation de façon appropriée au mode technique d’accès.

Ainsi, même dans le Web sémantique, tout n’est pas de la donnée. Il y a forcément du document quelque part, et même s’il faut réussir à l’ignorer pour sortir du « carcan de la pensée documentaire », je trouve qu’il est excessif de nier son existence. Pour des gens comme nous qui sommes habitués à manipuler des concepts documentaires, cette négation est même contre-productive. Les documents existent, on peut les voir dans l’espace du Web, et en tant que bibliothécaires il nous sera nécessaire de les identifier et les qualifier pour pouvoir nous approprier le Web sémantique.

Identité et mémoire : la réputation des internautes sur le Web

Cet texte a été extrait d’un article rédigé récemment avec Clément Oury dans la revue Documentaliste, intitulé « Web 2.0 et mémoire : de la conversation à la conservation ». Ce passage avait dû être retiré car l’article était trop long. J’en ai profité ici pour le mettre à jour et l’enrichir de quelques nouvelles références. Merci à mes principales sources Brainsfeed, Internet Actu et Outils froids.

En faisant de l’internaute non plus un spectateur passif, mais un acteur à part entière de la production d’informations sur le Web, le Web 2.0 a profondément bouleversé les enjeux liés à la mémoire individuelle, en introduisant des technologies permettant à chacun de s’exprimer, de commenter, de contribuer, sur des types de sites diversifiés.

Dans le Web 2.0, l’internaute crée ou met en ligne des contenus qui autrefois restaient dans sa sphère personnelle. Sur Flickr, la proportion de photos de famille, d’amis ou d’animaux familiers est écrasante. Les premières études Médiamétrie sur la blogosphère (2005) montraient déjà une scission, avec une forte majorité de blogs ayant en moyenne un seul lecteur : c’était en particulier le cas des skyblogs, utilisés par les jeunes davantage pour communiquer entre eux que pour publier sur le Web (Voir par ex. Gautier Poupeau, « Blogs et Wiki, quand le Web s’approprie la société de l’information », BBF). Le succès de réseaux sociaux comme Facebook confirme un usage des technologies en ligne destiné à renforcer des liens existants, des communautés déjà soudées (Voir les premiers résultats de l’enquête « sociogeek » http://sociogeek.admin-mag.com/ portant sur l’exposition personnelle sur le Web). En parallèle, on voit se développer des tendances très fortes de création de communautés totalement virtuelles, comme par exemple sur YouTube, où un individu, seul devant sa Webcam, se lance dans une introspection dont la dimension intime est plus ou moins véridique, et autour de laquelle finit par se mettre en place un groupe de fidèles dont la croissance est soutenue par la dimension virale du média (Cf. Michael Wesh, « An anthropological introduction to Youtube », présentation à la Library of Congress, 23 juin 2008).

Or, il existe sur le Web 2 .0 une dimension paradoxale de la permanence des contenus : alors que les contenus les plus institutionnalisés ou travaillés reposent sur un investissement technologique de leur créateur (maintenance du site Web, renouvellement annuel du nom de domaine, etc.) et donc tendent à disparaître lorsque celui-ci s’en désintéresse ou n’est plus en mesure de les maintenir, les contenus générés par les utilisateurs et hébergés sur les plateformes 2.0 ont une permanence forte puisque ces plateformes continuent à fonctionner même une fois que leur auteur s’en est détourné. C’est ainsi qu’apparaissent sur le Web 2.0 des « friches », des blogs qui restent en ligne mais ne sont plus consultés ni mis à jour : ce serait le cas de 94 % des 133 millions de blogs nés en 2002 (d’après Françoise Benhamou, « Va-t-on vers la disparition des blogs ? » Rue 89, 3 décembre 2008).
Ainsi, alors que l’on voit de précieuses informations s’évanouir, d’autres ne veulent pas disparaître. D’innombrables données sont stockées, parfois à l’insu de leurs producteurs, par des sociétés commerciales, constituant un réseau d’informations personnelles sur lesquelles repose la réputation des individus. Des moteurs de recherche comme 123people se consacrent spécifiquement au recoupement de ces informations, et permettent en un clic de trouver, sur une personne, toutes les informations disponibles en ligne : photo, adresse, n° de téléphone, comptes Facebook, Twitter et autre, adresse du blog…

On parle maintenant d’identité numérique pour désigner ces données dont le recoupement pose questions. Des questions juridiques et économiques par exemple, comme celles explorées dans le rapport de la FING : Le nouveau paysage des données personnelles : quelles conséquences sur les droits des individus ? Mais aussi des problèmes techniques liés aux systèmes de gestion d’identité (voir Exposé sur les identités numériques à la Fulbi par S. Bortzmeier et Exposé pédagogique sur la cryptographie par F. Pailler pour le groupe PIN). Le site DatalossDB est un projet de recherche qui recense les incidents de pertes de données sensibles, de quoi se donner bien des frissons. D’autres projets de recherche explorent la question sous différents angles.

Alors, « Pourquoi sommes-nous si impudiques ? » En réalité, si les internautes consentent à fournir une quantité croissante d’information personnelle sur les sites du Web 2.0, c’est parce que cette information, de plus en plus, est maîtrisée. L’enjeu est moins de cacher les contenus nuisibles à sa réputation qui pourraient persister en ligne, le concept de « droit à l’oubli » s’avérant largement impraticable sur le Web, que de construire une image de soi dont l’objectif « promotionnel » tend à creuser l’écart entre la réalité et l’image donnée ou perçue, jusqu’au mensonge (Cf Hubert Guillaud, « Genevieve Bell : secrets, mensonges et déceptions », Internet Actu, 20 février 2008).
Le blog Doppelganger.name, tenu par trois consultants spécialistes en techniques managériales et en Web 2.0, étudie les rapports entre identité et réputation sur le Web : il montre comment les pratiques de recrutement sont aujourd’hui infléchies par cette réputation numérique.

Face au besoin de maîtriser son identité numérique, des ressources se mettent en place : comme cette liste de 300 et plus outils de gestion d’identité numérique ou ces conseils pour savoir comment effacer son profil sur les sites de réseaux sociaux. Pour éviter d’en arriver jusque là, on envisage de former les étudiants à la gestion de leur identité numérique, ce serait en effet la moindre des choses, et pas seulement pour des professionnels de l’information.

Identifiants pérennes

Il y a quelques temps, j’ai failli aller au salon Documation pour parler d’identifiants pérennes. Finalement, comme ça n’intéressait personne, la présentation a été annulée… En plus pour une fois je m’étais donné la peine de faire quelque chose de nouveau, au moins en partie.

Donc vu que ça n’intéresse personne je trouve ça très constructif de le mettre en ligne.

http://docs.google.com/EmbedSlideshow?docid=dhtrtz5w_30c38rzbfp

Ça m’évitera de continuer à me réveiller tous les matins en me disant que mon blog est en jachère depuis le 24 janvier, et que c’est mal.

Le premier catalogue dans le linked data

Dans un de mes derniers billets, je vous parlais de LIBRIS, le catalogue collectif suédois, développé en méthode agile. Il s’avère aujourd’hui, d’après un article sur Nodalities (blog Talis), que Libris serait aussi le premier catalogue de bibliothèque intégralement disponible dans le Linked data.

Sur cette page technique on peut voir que leur préoccupation de rendre le catalogue « machine-readable » a pris une diversité de formes : une API spécifique nommée Xsearch, à laquelle s’ajoutent OpenSearch, unAPI, Z3950 et SRU, et OpenURL-Coins.
Mais dans l’article ils expliquent bien que tout cela, pour passionnant que cela soit, ne va pas aussi loin que le Linked Data qui permet de relier les données avec d’autres ressources disponibles sur le Web, et qu’ils « sont tombés amoureux de SPARQL » (je cite).

Tout est expliqué sur un blog spécifique. En anglais, pas en suédois ;-) Je leur tire une nouvelle fois mon chapeau. A l’heure où LCSH.info a été débranché pour des raisons institutionnelles, il était temps que d’autres bibliothèques se positionnent sur le Linked Data et montrent qu’elles n’ont pas peur de rendre leurs données plus visibles et plus accessibles.

ISWC 2008 (6) – les enjeux de la normalisation

Si tout le monde s’accorde à dire que la normalisation est une des grandes forces du Web sémantique, celle-ci est loin d’être un long fleuve tranquille. Le « panel » ou table ronde sur OWL 2 en était un bon exemple. J’ai entendu certains se lamenter que le fait de faire étalage des doutes, mésententes et contradictions qui existent dans la communauté autour de l’évolution normative risquait de la discréditer, mais je dois dire que je ne partage pas tout à fait cet avis. De mon point de vue, l’existence de forces contradictoires, voire de lobbys, dans un domaine normatif sont inévitables, sauf à considérer un domaine dont l’envergure est limitée et où le consensus s’impose de lui même. Il n’y a qu’à voir comment cela se passe à l’ISO TC46 où se discutent les normes du domaine de l’information. Bref, si ces normes font débat, c’est que beaucoup de gens s’y intéressent, ce qui est plutôt bon signe.

Après, en ce qui concerne la normalisation d’OWL 2, je ne suis pas sûre d’avoir perçu tous les enjeux mais en gros on peut les résumer comme cela : pour certains (notamment ceux qui ont une approche pragmatique du SemWeb dans l’esprit du Linked data), OWL est un formalisme beaucoup trop complexe et détaillé. Pour d’autres (en particulier les logiciens et tous ceux qui font des recherches sur l’aspect « raisonnement » du SemWeb), il est insuffisant et limité. Dans OWL 2, on propose un système de « profils » qui vont permettre de n’utiliser qu’un sous-ensemble de OWL tout en restant interopérable…. mais ce n’est pas simple de trouver un consensus.
L’enjeu est d’autant plus important que la tendance à l’ubiquité du Web pousse vers une utilisation très large d’OWL pour toutes sortes de besoins, alors que ce formalisme n’a jamais été conçu pour remplacer tous les modes de représentation des connaissances, pour certains prééxistants, qui peuvent être utiles dans leur diversité.

Si cela vous intéresse, je vous invite à lire les notes prises avec exhaustivité ici et l’analyse développée .

J’ai aussi participé à une intéressante discussion de couloir sur la différence entre Powder et OAI-ORE.
C’est vrai que si on s’en tient à la définition de Powder :

« a mechanism through which structured metadata (« Description Resources ») can be authenticated and applied to groups of Web resources. »

et qu’on la compare à celle d’ORE :

« Open Archives Initiative Object Reusae and Exchange (OAI-ORE) defines standards for the description and exchange of aggregations of Web resources. »

on pourrait se poser des questions.
Alors pour résumer, Powder permet de qualifier en masse des triples en s’appuyant sur des expressions régulières dans les URI. L’assertion Powder porte sur chacun des triples sélectionnés (ex. tous ces triples ont pour langue le français). Au Powder est associé un mécanisme d’authentification qui permet de prouver l’origine des assertions. Powder intègre un protocole qui permet de demander en http des infos sur une seule URI. Usage prévu : par ex., demander la taille et le type de contenu avant d’afficher un site sur un mobile.
Au contraire Oai-ore est basé sur le principe des « named graph » (graphes nommés) c’est à dire que l’assertion associée à un ensemble de triples regroupés dans une « resource map » porte uniquement sur cette « resource map » et pas sur les triples eux-mêmes (voir mon explication d’Ore ici mais c’était pas très clair et il n’était pas encore en version 1.0, il faudrait que je me replonge dedans…) En plus dans Ore il n’y a pas de protocole.
Enfin, si j’ai bien compris, la principale différence entre les deux est que Powder sert à associer des métadonnées à des URIs à posteriori (ce n’est pas le créateur de la ressource qui le fait mais un tiers). Alors que dans Ore, on structure la description de la ressource en fonction des métadonnées qu’on veut lui associer (c’est le créateur de la ressource qui associe les métadonnées). Bon ça n’a l’air de rien, mais ça change tout.
Pardon pour cette petite digression. Donc il s’agit bien de deux choses complètement différentes, et chacun va pouvoir continuer à normaliser tranquillement dans son coin. Au fait, à quand un groupe de travail pour les bibliothèques dans le Web sémantique ?

Ce billet clôt la série ISWC 2008. J’en ai fini avec mon compte-rendu, vous pouvez reprendre une activité normale, c’est-à-dire, si vous êtes un geek, retourner lire d’autres blogs plus intéressants, et si vous êtes un bibliothécaire, c’est fini, tout va bien, vous pouvez revenir ;-)