La notion de document dans le Web sémantique

Ce billet est petite pierre à ajouter à la série de Got :
– les carcans de la pensée documentaire (1) et (2)
l’antilope sur le Web
Que vous trouverez brillamment résumés chez Hubert.

Dans le Web sémantique, on décrit le monde sous forme de triplets sujet – prédicat – objet. Chaque triplet est indépendant : ce qui veut dire qu’il doit pouvoir être compris sans avoir besoin de contexte, ou du moins, d’autre contexte que la connaissance des entités qui sont représentées par les URI.
Plus j’avance dans ma connaissance du Web sémantique, plus je suis persuadée que les identifiants – les URI – sont la clef de tout. Une fois qu’on a conçu correctement ses URI, tout le reste coule de source.

URI abstraites, URI concrètes
Quand j’ai commencé à travailler sur les identifiants ARK, nous avons introduit dans la notion d’identifiant une différence entre ressource abstraite et concrète.
Une ressource que nous considérions comme abstraite, intellectuelle, par exemple un document numérique comme celui-là, était potentiellement mouvante : bien que son contenu soit toujours le même, sa présentation, sa forme, et les fonctionnalités associées pouvaient changer.
Au contraire, une ressource concrète correspondant à ce document dans un certain format (mode texte ou mode image, tiff ou jpeg…), dans une certaine qualité (par exemple haute et basse résolution), ou dans un certain contexte de visualisation (en pleine page, avec sa table des matières, sous forme de vignettes…) était définie comme stable.
Dès le départ, nous avons donc défini que chaque objet numérique aurait une URI abstraite, en l’occurrence ark:/12148/bpt6k28585w, et plusieurs URI concrètes permettant d’appeler ses formats, résolutions, contextes etc. Par exemple : http://gallica.bnf.fr/ark:/12148/bpt6k28585w.texte pour le visualiser en mode texte dans Gallica, ou http://catalogue.bnf.fr/ark:/12148/bpt6k28585w/f46 pour visualiser la 46e image dans le contexte du catalogue.

Ce choix (qui n’avait rien à voir avec le Web sémantique à l’époque) m’a bien aidée à comprendre ensuite certaines notions liées à l’utilisation des URI dans le Web sémantique, qui est décrite dans la note du W3C « URIs sympas pour le Web sémantique » (déjà évoqué succinctement ici).

Dans Gallica, l’URI abstraite ne correspond à rien d’autre qu’à une page Web qui est la représentation que nous avons décidé de donner, à un instant T, de ce document dans Gallica. Si je ne vous avais pas dit qu’il y avait une URI abstraite, vous n’auriez aucun moyen de le savoir.
Dans le Web sémantique, au contraire, on utilise effectivement l’URI abstraite d’une ressource pour effectuer un certain nombre d’assertions sur cette ressource : les fameux triplets.

La matérialisation des triplets
Évidemment, ces triplets sont comme tout en ce monde : ils ont une matérialisation. C’est-à-dire que si on veut en faire quelque chose, il va falloir les faire passer du monde de la pensée abstraite au monde physique, et pour cela les exprimer d’abord en terme de modèle (je choisis comment je formule ma phrase, ou mon triplet), puis les manifester en termes de support (j’inscris ma phrase ou mon triplet sur un support, fut-il numérique). J’emploie à dessein les termes d’exprimer et manifester, je suis sûre qu’il y en a qui me suivent ;-)
Pour des raisons de commodité évidente, on n’exprime pas chaque triplet sur un support indépendant du triplet voisin. On les regroupe dans des … documents (ou dans dans une base de données, mais vous noterez que Got assimile, très justement à mon avis, l’enregistrement dans une base de données qu’est une notice bibliographique à un document). Cela permet d’alléger un peu la syntaxe (RDF étant quand même pas mal verbeux) en ne répétant pas tout le temps l’URI dont on parle, et de regrouper dans un même support, comme un fichier RDF/XML, un ensemble de triples qui concernent la même ressource (par exemple).

Ce qu’il est important de comprendre, c’est que ce regroupement des triplets dans un document est, en principe, non signifiant : on peut, en théorie, choisir de manière libre et arbitraire quels triplets on regroupe dans un fichier, et quels triplets on met ailleurs. Je dis bien en théorie, car en pratique, et c’est là que je rejoins JMS dans son dernier commentaire, l’inscription des données dans un document n’est pas juste un hasard. Elle correspond généralement à une formalisation suivant un protocole défini et qui permet aux gens (les machines, elles, s’en foutent) de reconnaître la structure de l’information qui leur est proposée et d’en faciliter la manipulation.

Mais je m’éloigne de mon propos.

La fixation des triplets dans un document n’est qu’une des représentations possibles de l’information qu’ils contiennent, et c’est ça qui est intéressant dans le Web sémantique. Pour une même ressource abstraite, je vais pouvoir proposer différentes représentations, qui varieront suivant la forme (je peux décrire une seule ressource dans un fichier, ou plusieurs), la qualité (je peux retenir 10 triplets concernant cette ressource ou en retenir 100) ou encore le contexte (choisir certains triplets plutôt que d’autres) que je souhaite donner à mon information.
A cette étape là on définit ce qu’on appelle le « generic document » ; qui équivaut à la manifestation des triples qu’on a choisis sur un support et qui a lui-même une URI, différente de celle de l’entité abstraite.

Le Web de données et ses documents
Le travail sur le <a href="http://linkeddata.orglinked data a été à l’origine de réflexions importantes concernant la représentation des données en RDF sous forme de documents. L’objectif du linked data étant de rendre des données disponibles sur le Web, il a paru rapidement utile de pouvoir les fournir sous forme de données (pour les machines) mais aussi sous forme de pages Web, c’est à dire de documents (pour les humains).

C’est là qu’entre en scène le mécanisme de négociation de contenu, qui est décrit justement dans la note en question du W3C. La négociation de contenu sert à gérer le passage de l’URI abstraite au document. En gros (je caricature), on envoie à un serveur une URI abstraite, il en déduit l’URI du generic document, puis il regarde si vous êtes un humain ou une machine avant de vous renvoyer soit une page Web, soit un ficher RDF.
Ce dernier niveau, le niveau technique, visible, pratique, c’est ce qu’on appelle le « Web document » ; qui correspond à une formalisation précise du « generic document », une représentation dans un format particulier.

Le Web de données vu comme une publication
Là je vais tordre un peu le cou à nos concepts bibliothéconomiques habituels, mais imaginons que nous essayions de qualifier le Web de données comme une publication, ou un ensemble de publications.

En terme de modèle documentaire, si je prends une idée (une œuvre par exemple) et que je la mets en RDF, son expression est à la fois atomisée (sous forme de triplets) et illimitée (de par les liens avec d’autres triplets). Le nombre de manifestations, ou documents, que je peux en tirer est potentiellement infini. Et il peut y avoir plusieurs items ou documents techniques qui représentent chaque manifestation de façon appropriée au mode technique d’accès.

Ainsi, même dans le Web sémantique, tout n’est pas de la donnée. Il y a forcément du document quelque part, et même s’il faut réussir à l’ignorer pour sortir du « carcan de la pensée documentaire », je trouve qu’il est excessif de nier son existence. Pour des gens comme nous qui sommes habitués à manipuler des concepts documentaires, cette négation est même contre-productive. Les documents existent, on peut les voir dans l’espace du Web, et en tant que bibliothécaires il nous sera nécessaire de les identifier et les qualifier pour pouvoir nous approprier le Web sémantique.

Une réflexion sur “La notion de document dans le Web sémantique

  1. J’aime bien :)
    Mais j’ai quand même une question : si on a une infinité de représentations documentaires d’une « idée » comment identifier celles qui sont « valables » ? Parce qu’autant avant on avait une limite physique (toute relative) de la production documentaire, autant le web sémantique démultiplie encore cette production (on commençait déjà à se poser des questions avec le web tout court, alors maintenant…). Dès lors, ne vaudrait-il pas mieux chercher à se rapprocher de l’identification et de la qualification de l’information plutôt que de sa représentation documentaire ?
    Je sais pas si c’est bien clair ce que je raconte mais en gros j’ai une inquiétude d’échelle :)

Les commentaires sont fermés.