Le premier catalogue dans le linked data

Dans un de mes derniers billets, je vous parlais de LIBRIS, le catalogue collectif suédois, développé en méthode agile. Il s’avère aujourd’hui, d’après un article sur Nodalities (blog Talis), que Libris serait aussi le premier catalogue de bibliothèque intégralement disponible dans le Linked data.

Sur cette page technique on peut voir que leur préoccupation de rendre le catalogue « machine-readable » a pris une diversité de formes : une API spécifique nommée Xsearch, à laquelle s’ajoutent OpenSearch, unAPI, Z3950 et SRU, et OpenURL-Coins.
Mais dans l’article ils expliquent bien que tout cela, pour passionnant que cela soit, ne va pas aussi loin que le Linked Data qui permet de relier les données avec d’autres ressources disponibles sur le Web, et qu’ils « sont tombés amoureux de SPARQL » (je cite).

Tout est expliqué sur un blog spécifique. En anglais, pas en suédois ;-) Je leur tire une nouvelle fois mon chapeau. A l’heure où LCSH.info a été débranché pour des raisons institutionnelles, il était temps que d’autres bibliothèques se positionnent sur le Linked Data et montrent qu’elles n’ont pas peur de rendre leurs données plus visibles et plus accessibles.

ISWC 2008 (6) – les enjeux de la normalisation

Si tout le monde s’accorde à dire que la normalisation est une des grandes forces du Web sémantique, celle-ci est loin d’être un long fleuve tranquille. Le « panel » ou table ronde sur OWL 2 en était un bon exemple. J’ai entendu certains se lamenter que le fait de faire étalage des doutes, mésententes et contradictions qui existent dans la communauté autour de l’évolution normative risquait de la discréditer, mais je dois dire que je ne partage pas tout à fait cet avis. De mon point de vue, l’existence de forces contradictoires, voire de lobbys, dans un domaine normatif sont inévitables, sauf à considérer un domaine dont l’envergure est limitée et où le consensus s’impose de lui même. Il n’y a qu’à voir comment cela se passe à l’ISO TC46 où se discutent les normes du domaine de l’information. Bref, si ces normes font débat, c’est que beaucoup de gens s’y intéressent, ce qui est plutôt bon signe.

Après, en ce qui concerne la normalisation d’OWL 2, je ne suis pas sûre d’avoir perçu tous les enjeux mais en gros on peut les résumer comme cela : pour certains (notamment ceux qui ont une approche pragmatique du SemWeb dans l’esprit du Linked data), OWL est un formalisme beaucoup trop complexe et détaillé. Pour d’autres (en particulier les logiciens et tous ceux qui font des recherches sur l’aspect « raisonnement » du SemWeb), il est insuffisant et limité. Dans OWL 2, on propose un système de « profils » qui vont permettre de n’utiliser qu’un sous-ensemble de OWL tout en restant interopérable…. mais ce n’est pas simple de trouver un consensus.
L’enjeu est d’autant plus important que la tendance à l’ubiquité du Web pousse vers une utilisation très large d’OWL pour toutes sortes de besoins, alors que ce formalisme n’a jamais été conçu pour remplacer tous les modes de représentation des connaissances, pour certains prééxistants, qui peuvent être utiles dans leur diversité.

Si cela vous intéresse, je vous invite à lire les notes prises avec exhaustivité ici et l’analyse développée .

J’ai aussi participé à une intéressante discussion de couloir sur la différence entre Powder et OAI-ORE.
C’est vrai que si on s’en tient à la définition de Powder :

« a mechanism through which structured metadata (« Description Resources ») can be authenticated and applied to groups of Web resources. »

et qu’on la compare à celle d’ORE :

« Open Archives Initiative Object Reusae and Exchange (OAI-ORE) defines standards for the description and exchange of aggregations of Web resources. »

on pourrait se poser des questions.
Alors pour résumer, Powder permet de qualifier en masse des triples en s’appuyant sur des expressions régulières dans les URI. L’assertion Powder porte sur chacun des triples sélectionnés (ex. tous ces triples ont pour langue le français). Au Powder est associé un mécanisme d’authentification qui permet de prouver l’origine des assertions. Powder intègre un protocole qui permet de demander en http des infos sur une seule URI. Usage prévu : par ex., demander la taille et le type de contenu avant d’afficher un site sur un mobile.
Au contraire Oai-ore est basé sur le principe des « named graph » (graphes nommés) c’est à dire que l’assertion associée à un ensemble de triples regroupés dans une « resource map » porte uniquement sur cette « resource map » et pas sur les triples eux-mêmes (voir mon explication d’Ore ici mais c’était pas très clair et il n’était pas encore en version 1.0, il faudrait que je me replonge dedans…) En plus dans Ore il n’y a pas de protocole.
Enfin, si j’ai bien compris, la principale différence entre les deux est que Powder sert à associer des métadonnées à des URIs à posteriori (ce n’est pas le créateur de la ressource qui le fait mais un tiers). Alors que dans Ore, on structure la description de la ressource en fonction des métadonnées qu’on veut lui associer (c’est le créateur de la ressource qui associe les métadonnées). Bon ça n’a l’air de rien, mais ça change tout.
Pardon pour cette petite digression. Donc il s’agit bien de deux choses complètement différentes, et chacun va pouvoir continuer à normaliser tranquillement dans son coin. Au fait, à quand un groupe de travail pour les bibliothèques dans le Web sémantique ?

Ce billet clôt la série ISWC 2008. J’en ai fini avec mon compte-rendu, vous pouvez reprendre une activité normale, c’est-à-dire, si vous êtes un geek, retourner lire d’autres blogs plus intéressants, et si vous êtes un bibliothécaire, c’est fini, tout va bien, vous pouvez revenir ;-)

ISWC 2008 (5) – exploiter les données

Alors voilà : on a créé plein de beaux triples, des URIs, des ontologies, on a tout publié sur le Web of data… et qu’est-ce qu’on fait maintenant ? La conférence était assez riche en présentations d’outils ou de cas d’utilisation de toutes sortes qui montrent toute la puissance qu’apporte le Web sémantique en termes d’utilisation des données.
Je ferai ici une mention spéciale au Semantic Web challenge, un concours annuel qui a pour objectif de montrer des réalisations concrètes. Cette année, le challenge se divisait en deux branches : une branche « ouverte » (open track) dans laquelle on pouvait proposer n’importe quelle application, et une intitulée « billion triple challenge » dont l’objectif était de présenter des outils capables de manipuler une quantité importante de données.
Au moment de la « poster session », tous les participants au challenge ont fait des démos de leurs outils, et 5 outils ont été sélectionnés pour la finale dans chaque catégorie. Le lendemain, chacun des 5 élus a présenté dans le grand amphithéâtre son outil en une dizaine de minutes et cela a été une session pleine d’émerveillements. La plupart des exemples que je vais vous présenter dans ce billet en sont tirés (mais pas tous).
Par contre je ne parlerai pas de tout, alors ne m’en voulez pas ;-) vous pouvez retrouver tout cela sur le site du Challenge.

Il y a plusieurs façons d’exploiter les données du SemWeb. Je les ai classées en 4 catégories…

Les « triple store »
Un « triple store » est une base de données optimisée pour stocker des données en RDF. En général on utilise le langage de requête SPARQL, langage normalisé du Web sémantique, pour interroger ou extraire les données.
Dans cette catégorie, mention spéciale à Virtuoso qui n’a pas été dans les 5 élus du « billion triple challenge » mais s’est fait remarquer pour avoir réussi à indexer 11 milliards de triples en SPARQL avec des temps de réponse paraît-il très impressionnants. Pour la scalabilité, ils se posent là.
Pourquoi n’ont-ils pas été retenus pour le « billion triple » alors, me direz-vous ? Parce que le challenge consistait pas seulement à stocker les données, mais à les exploiter.

Les raisonneurs
Un des principaux intérêts d’avoir des données en RDF et des ontologies, c’est de pouvoir faire des inférences, c’est-à-dire déduire des informations exprimées les informations implicites (par ex., si A est cousin(e) de B et que la propriété « cousin(e) de » est symétrique, alors B est cousin(e) de A). Il existe donc des outils, raisonneurs ou moteurs d’inférences, dont le rôle est de parcourir les triples et de générer des inférences, ce qui crée de nouveaux triples qui peuvent être ajoutés au stock disponible pour être à leur tour exploités.
Deux outils de ce type ont été présentés : Marvin et SAOR.
MARVIN met l’accent sur la scalabilité et la possibilité de générer un maximum de triples tout en évitant de créer des doublons. La qualité des noeuds ajoutés n’est pas prise en compte, l’objectif étant plutôt de mettre à disposition des chercheurs une méthode permettant de tester différents algorithmes de raisonnement sur de larges ensembles de donnés. Il a gagné le 3e prix du challenge dans sa catégorie.
Le second, SOAR, ayant pour objectif de servir à alimenter un moteur de recherche (SWSE, voir ci-dessous) s’intéresse au contraire beaucoup aux questions de qualité de l’information générée (veiller à ce que les inférences aient du sens) et de temps de réponse.
Je ne rentre pas dans les détails, car très franchement, ça me dépasse… Mais il est bon de savoir que ces engins existent. Pour ceux qui seraient restés interloqués devant l’échange de commentaires de mon précédent billet, sachez que l’on peut également faire de petites inférences avec SPARQL. Il « suffit » de ranger l’ontologie dans le même triple store que les données, et de les requêter ensemble. Un jour, Got vous expliquera en détail comment marche SPARQL et comment on peut faire de petites inférences avec (pas vrai ?)

Les outils de recherche
Haha. Voilà qui est délicat, j’ai failli appeler ça les « moteurs de recherche sémantique » mais ça ne va pas du tout. Ca, ça ou encore ça, ce sont des choses qu’on a tendance à appeler des moteurs de recherche sémantique mais ils n’ont RIEN à voir avec le Web sémantique donc sachez-le : ce n’est pas du tout de ce genre de choses que je parle.
Les outils dont je parle ici sont des moteurs de recherche dont la vocation est spécifiquement d’exploiter des données en RDF et en particulier les données présentes dans le Linked Data.
Sindice est un moteur de recherche qui permet d’exploiter des données publiées en RDF, qu’elles se trouvent dans des triple stores, dans des fichiers RDF, ou dans des pages HTML sous forme de métadonnées (microformats ou RDFa – pour en savoir plus sur RDFa, cliquez ici). Sindice surveille, collecte et indexe ces données (apparemment il opère aussi des fonctions de raisonnement mais je ne sais pas lesquelles). Ensuite, il met à disposition tout cela sous forme d’API pour qu’on puisse l’utiliser dans une autre application. Sindice est une des briques essentielles du Web of data car il va permettre de trouver les triples que l’on veut mettre dans les interfaces d’accès (voir ci-dessous).
Après, il existe d’autres moteurs de recherche qui exploitent les données en RDF mais je ne les ai pas tous vus en détail, et ils ont été écartés du « billion triple challenge » pour la même raison que Virtuoso. J’ai par exemple pas mal entendu parler de SWSE (paper), un moteur orienté objet qui fournit un point d’accès en SPARQL (ce que ne fait pas Sindice).

Les interfaces de navigation
C’est dans cette catégorie que je vais ranger les deux gagnants du Semantic Web Challenge.
Dans la catégorie « billion triple », c’est SemaPlorer qui l’emporte. Il s’agit d’une interface d’exploration de données en RDF qui démarre avec de la géolocalisation et continue avec de la navigation à facettes. Vous pouvez regarder la démo sous forme de vidéo sur le site : c’est assez séduisant en termes de fonctionnalités. Enfin évidemment, ce qui a surtout pesé dans le résultat c’était l’architecture sous-jacente, avec du cloud computing d’Amazon (EC2), et 25 triple stores distincts qui sont fédérés par un point d’accès SPARQL, NetworkedGraphs. Le résultat est donc assez bluffant mais plutôt moche.
On ne peut pas en dire autant du gagnant de l’open track : Paggr. Imaginez un genre de Netvibes, mais dans lequel toutes les données seraient converties en RDF pour pouvoir être reliées et exploitées en déchaînant toute la puissance du Web sémantique. Bah, je vois bien que vous n’arrivez pas à imaginer ;-) alors regardez la vidéo, et je vous raconte juste le truc qui m’a le plus bluffée : quand il a glissé le nom d’un de ses contacts sur le widget Google maps, et qu’en analysant je ne sais quelles données ça lui a localisé la personne…
Un petit dernier pour la route : Freebase Parallax, une interface à facettes pour naviguer dans les données de Freebase. Elle est vraiment pas mal celle-là.

Inclassables et inoubliables
Je ne peux pas arrêter ce billet déjà beaucoup trop long sans évoquer les deux projets qui sont peut-être les plus riches d’enseignements pour notre communauté.
Le premier a reçu le 3e prix dans l’open track, il s’agit de Health Finland. Il s’agit d’une sorte de portail qui donne accès à une masse hétérogène d’informations médicales en Finlande. Son objectif est de faire se rencontrer les requêtes des citoyens internautes avec des données très structurées et modélisées dans des vocabulaires professionnels parfois hermétiques. Pour cela, il ont modélisé les différents vocabulaires professionnels en SKOS et les ont alignés avec une ontologie de haut niveau qui, elle, utilise un vocabulaire « grand public ». C’est vraiment une approche très convaincante.
ClioPatria n’a pas été présenté dans le Challenge mais on nous en a parlé dans les lightening talks (voir mon twitter) ainsi que dans la présentation du projet e-culture dont j’avais parlé dans ce billet. J’adore toujours autant le projet, et je ne suis pas la seule car il a été assez remarqué dans les « best papers awards ». Donc, il utilise ClioPatria, une plateforme de navigation dans des données en RDF qui utilise le concept de facettes mais aussi les requêtes SPARQL et un système de clustering assez séduisant. On a également appris qu’il allait être utilisé par Europeana.

J’aimerais bien continuer à vous raconter mais ce billet m’a épuisée… Je pense que je vais laisser de côté les outils pour passer à autre chose. De toutes façons, il sera toujours temps d’y revenir plus tard dans un billet plus détaillé sur l’un ou l’autre.

ISWC 2008 (4) – Simplifier le Semantic Web – un problème d’outils ?

La communauté présente à ISWC est quand même largement (mais pas exclusivement, j’en suis la preuve vivante ;-) composée de développeurs et d’informaticiens qui, très naturellement, cherchent la solution à leurs problèmes dans les outils. Or, l’un des problèmes majeurs du SemWeb est le suivant : comment rendre simple aux yeux des utilisateurs ce qui est, de toute évidence, compliqué, à savoir la structure complexe des données qui composent le SemWeb.

L’enjeu se situe à la fois du côté de la production et de l’usage. Commençons par la production.

Je classerais les outils d’aide à la production que j’ai vus en deux catégories : les assistants à la production d’ontologies, et les interfaces de type wiki.

Les premiers, auxquels une session était consacrée, ont principalement pour objectif de permettre à des « experts métier », c’est à dire des personnes qui ont d’importantes connaissances thématiques mais pas de compétences techniques en gestion des connaissances, de produire ou contribuer à la production des ontologies de leur domaine. Je ne vais pas rentrer dans les détails, cela allait du plug-in pour travailler en collaboratif dans Protégé à un outil qui transforme du pseudo langage naturel (des phrases simples comme « there are students, professors and universities ; ‘PhD Student’ is a type of student » etc.) en classes et propriétés dans une ontologie. On peut même générer des ontologies et des triples en utilisant des feuilles de calcul.
Ce qui m’a particulièrement frappé, c’est que quelle que soit l’ingéniosité déployée par les concepteurs de ces outils pour les rendre puissants, souples, attractifs, simples, riches et bien d’autres choses encore, leur constat final était toujours le même : l’ontologie résultant de ce processus n’est pas de qualité suffisante pour permettre de l’exploiter sans l’intervention préalable d’un « knowledge engineer », un expert en ontologies.

Un peu décevant, n’est-ce pas ? Alors tournons-nous vers l’autre hypothèse, celle des wikis (ou wiki-like) sémantiques. En fait, il existe toute une gamme d’outils qui permettent de générer des données en RDF de manière plus ou moins transparente pour l’utilisateur, dans la mouvance du Web 2.0. On peut citer par exemple Semantic Media Wiki (voir aussi ici). Dans la même veine, on nous a présenté divers outils de « semantic desktop » ou de « semantic knowledge management », comme par exemple K-now qui permet de créer des ontologies sous forme de formulaires puis de créer des triples en remplissant les formulaires.
Je me réfèrerai de nouveau à l’intervention de Mark Greaves (au passage, si vous voulez savoir ce qu’il a vraiment raconté, vous pouvez lire ces notes bien plus précises que les miennes). En étudiant les wikis sémantiques on peut tirer quelques leçons essentielles :
– l’importance des interfaces utilisateurs (il faut que ce soit joli et facile à utiliser)
– l’importance du « jardinage » (il faut des gens qui font sans arrêt du petit nettoyage, sinon ça devient du grand n’importe quoi)
– les ontologies créées par les utilisateurs (du wiki) sont médiocres (elles sont moins structurées et moins riches que ce qu’on pourrait attendre)
– on est obligés de compléter la structure RDF par du langage naturel.

Bon, je ne peux pas achever ce panorama des outils de production sans parler de Freebase. Freebase a fait l’objet d’une keynote assez largement reconnue comme excellente. Freebase est une sorte de Wikipedia, mais qui repose sur des données structurées modélisées sous forme de graphe. Dans Freebase, les utilisateurs peuvent ajouter des données mais aussi agir sur la façon dont elles sont organisées (il était question de « schéma » plutôt que d' »ontologie »).

Je passe sur la description détaillée et je saute directement à la conclusion : Freebase, est-ce ou non du Web sémantique ? John Giannandrea qui présentait la keynote a lui-même posé la question, en disant que oui (parce qu’elle repose sur des données modélisées sous forme de graphe et qu’elle apporte une importance toute particulière aux URIs) et non (parce qu’elle ne contient pas d’ontologie et n’implémente pas les aspects description logique). A quoi Ivan Herman, qui pilote l’activité SemWeb au W3C, a répondu que la logique n’était pas obligatoire et que, bienvenue dans le Web sémantique.
Je ne sais pas s’ils auraient été aussi bien accueillis s’ils n’avaient pas, il y a à peine un mois, mis en place un accès à Freebase en RDF qui permet d’exploiter les données de Freebase dans le Linked Data. Voir les réserves de Got exprimées il y a un an (il vous dirait qu’ils ne font toujours pas de SPARQL et que ça craint, mais autant que je sache, SPARQL n’est pas un critère de base pour être dans le linked data ;-).
Evidemment si on s’intéresse, une fois encore, à la qualité des données et de la modélisation, on obtiendra des réponses bien naturelles comme « il vaut mieux des données inexactes que pas de données » ou « cela ne peut que s’améliorer avec le temps ». Que celui qui n’a jamais renoncé à corriger un article dans Wikipedia leur jette la première pierre…

Bref bref : c’est pas demain que n’importe qui pourra faire des ontologies. En sortant de là, je me demandais pourquoi la question (de réussir à associer des « non experts » à la production des ontologies) n’était posée qu’en termes d’outils, et pas d’une façon plus large en termes d’organisation, de ressources humaines, de montée en compétences, etc.
Ca doit être un truc de bibliothécaire, en tout cas je ne suis pas surprise de constater que n’importe qui ne peut pas modéliser des données, même avec un super outil qui fait tout tout seul (même si je pense qu’on pourrait essayer d’aider les gens en les formant).
En tout cas, d’après ce que j’ai pu entendre à plusieurs reprises, que ce soit dans les conférences ou autour d’un repas, la modélisation des données reste un des problèmes majeurs du Web sémantique aujourd’hui.

ISWC 2008 (3) – être visible sur le Web : linked data

L’initiative « Linked Data » est un des faits marquants du SemWeb ces dernières années et il est intéressant de voir qu’elle est complètement intégrée dans la « vie quotidienne » de la communauté SemWeb. Il y en a qui disent même qu’elle aurait sauvé le SemWeb d’une mort certaine ;-) En tout cas, tout comme l’observation des tendances du Web, le « linked data » est plutôt un thème omniprésent de la conférence mais cela me semble intéressant de faire un focus dessus car il intéresse particulièrement la communauté des bibliothèques.

Le linked data, c’est une des visions du Web Sémantique (pas la seule visiblement) dans laquelle l’objectif de base est de mettre en ligne le plus possible de données structurées en RDF (des « triples »). Pas d’inférence, pas de raisonnement logique ou d’intelligence artificielle à ce niveau : il s’agit déjà de mettre les données à disposition pour qu’elles puissent être réutilisées dans d’autres contextes. (On peut difficilement imaginer quelque chose qui soit plus dans l’esprit des bibliothèques, pas vrai ?)
Une consigne de base : mettre le plus possible de liens (je veux dire, d’URIs déréférençables – en savoir plus) dans les triples, pour faciliter la navigation dans le Web of data. Le linked data, c’est le mash-up ultime, c’est le « Web of data » qui constitue le matériau que pourront réutiliser les machines pour rendre des services, répondre à des questions, etc.

Donc en fait, à chaque fois que quelqu’un dit qu’il a créé des triples, on lui demande s’ils sont disponibles en linked data. La question a été sensible autour de Freebase (je reviendrai dessus) qui a récemment publié ses données dans le Web of Data.

Mais me direz-vous, qu’est-ce que ça va nous apporter de mettre nos données dans le linked data ? Je vous en citerai deux exemples qui m’ont particulièrement frappé.

Le premier est un projet réalisé par une équipe de recherche d’Amsterdam qui porte sur l’interopérabilité des informations d’actualité (« news items »). Le projet était (brillamment) présenté par Raphaël Troncy. Pour être exploitables, les actualités ont besoin d’être contextualisées, et homogénéisées entre des différents médias et leurs formats de métadonnées respectifs. Pour ce faire, le projet NewsML propose une modélisation en RDF des données d’actualités et des différents vocabulaires utilisés pour les écrire, attribue partout des URI déréférençables, puis fait une série de manipulations pour enrichir ces données.
Parmi les manipulations en question, on notera deux choses : la reconnaissance d’entités nommées (réalisée grâce à Open Calais), et l’utilisation du Linked data pour assigner aux entités nommées trouvées des URI correspondant aux ressources qui existent dans le Linked Data.
Donc : si mes données sont disponibles dans le Web of data, et que mes URI sont déréférençables, je pourrai grâce à ce système gagner en visibilité puisque mes données seront reliées à des faits d’actualité.

Autre exemple : DBPedia Mobile.
Il s’agit d’une application développée par (entre autres?) la Freie Universität de Berlin pour naviguer dans le Web of data sur un téléphone portable. L’idée est de géolocaliser automatiquement l’utilisateur, puis de lui proposer une carte sur laquelle il peut naviguer pour obtenir des informations sur les lieux remarquables, des photos, des services, etc. (démo) et également publier ses propres photos ou autres documents.
Le point de départ est DBPedia (pour tout savoir sur DBPedia, cliquez ici) mais ensuite l’idée est de se promener sur les autres sites du Web of Data.
Donc… si mes données sont sur le Web of Data, plus besoin de développer des interfaces compliquées pour favoriser la mobilité : elles seront accessibles à partir d’applications développées par d’autres.

Ce ne sont que quelques exemples, les applications exploitant la richesse du linked data étant chaque jour plus nombreuses.
Mais me direz-vous, c’est bien compliqué pour moi, bibliothèque, de mettre mes données sur le Web of data, je ne sais pas les convertir facilement en RDF… Et là aussi j’ai la réponse : si vous avez un entrepôt OAI, vous pouvez utiliser OAI2LOD.

Evidemment, pour que ce soit vraiment efficace il nous reste du boulot pour relier nos données avec d’autres. Mais ce serait déjà un bon début non ?

ISWC 2008 (2) – les tendances du Web

On pourrait penser qu’au bout de 7 ans de conférences ISWC, la communauté qui se retrouve ici n’aurait plus besoin de se justifier quant à l’utilité et l’importance de ses travaux. Ce n’est pas tout à fait le cas, d’ailleurs le dernier keynote speaker, Stefan Decker du DERI, a organisé sa conférence autour de l’idée que pour sauver le SemWeb, on avait avant tout besoin d’un message attractif et unifié (« appealing unified message »), aucun de ceux qui ont été proposés jusqu’à maintenant dans la communauté n’ayant le pouvoir nécessaire pour… lever des fonds.

De fait, j’ai trouvé intéressant le discours (un peu éparpillé dans la conférence) visant à replacer l’initiative du SemWeb dans le contexte plus large du Web, afin de voir comment il peut être utile aux « vrais gens ».

Le premier keynote speaker, Ramesh Jain (University of California, Irvine), a rappelé que l’objectif des technologies du SemWeb est de combler le « semantic gap » : c’est-à-dire le fossé qui existe entre les documents tels qu’on sait les représenter sur le Web (des trains de bits, des caractères alphanumériques, des fichiers, des listes, des images, des vidéos etc.) et les besoins qu’ont les utilisateurs de manipuler des concepts abstraits reposant sur des objets ou des événements.

Le fossé sémantique se situe entre les deux, mais la question reste ouverte : les technologies qui sont développées dans le cadre du SemWeb permettent-elles de combler le fossé, ou ne font-elles qu’améliorer la qualité technologique existante de chaque côté…

La réponse à cette question semble résider assez largement dans l’observation des tendances du Web, et ce qu’elles nous enseignent sur les moyens technologiques qui existent ou que nous devons développer pour améliorer l’expérience utilisateur.

Sur ce sujet, j’ai beaucoup apprécié la présentation du projet Theseus par SAP research (pour ceux qui n’auraient pas suivi, Theseus est la branche allemande qui s’est détachée de Quaero).
L’objectif est limpide : il faut simplifier la technologie pour l’apporter aux gens.
Nous nous situons dans un contexte où la notion de services est devenue clef. Nous sommes passés d’un système où les processus répondant à des besoins spécifiques étaient codés « en dur » dans les applications, à un système reposant sur de multiples services combinés entre eux pour constituer une chaîne de valeurs (« value chain »). Il s’agit d’une tendance lourde du Web d’aujourd’hui qui oblige les entreprises à être plus « agiles » : on n’achète plus une machine ou un logiciel, on achète le service que rend la machine ou le logiciel. Si la machine a un problème, quelqu’un vient la réparer. C’est le règne du SAS (Software as a service).
Dans ce contexte, que nous enseigne l’observation des entreprises qui ont véritablement réussi sur le Web ? L’intervenant a pris l’exemple d’Amazon et de iTunes pour montrer que le secret de leur réussite c’est le fait de couvrir toute la chaîne de valeur, de la création des contenus jusqu’à leur utilisation finale, tout en intégrant un écosystème de partenaires dans leur plateforme via des services à valeur ajoutée.
L’objectif de Theseus est de créer justement une plateforme de services à valeur ajoutée qui puisse être réutilisée dans la chaîne de valeur de différents acteurs, y compris des petits entrepreneurs du Web, avec un faible ticket d’entrée technologique.
Globalement, le discours était vraiment très séduisant. On ne voit juste pas trop comment le SemWeb s’intègre dans cette vision ;-) si ce n’est par la conclusion : « semantics are a key enabler ».

Essayons d’aller plus loin…

Finalement, ainsi que l’a décrit Mark Greaves de Vulcan Inc. dans sa présentation sur les « semantic wikis », ce qu’apporte le SemWeb au monde de l’information aujourd’hui se divise en deux branches : une branche « entreprise » (au sens large du terme, c’est-à-dire que cela consiste à utiliser les technologies du Web sémantique dans un contexte métier, très contrôlé et structuré), et une branche qui consiste à essayer d’améliorer l’expérience utilisateur sur le Web, la question étant de savoir où et comment ces deux branches se rencontrent. En fait, le profit qu’elles apportent l’une à l’autre va dans les deux sens :
– de la 1e branche vers la 2e, on a besoin de données « expertes » créées dans un contexte métier pour alimenter le « Web of data » ;
– de la 2e branche vers la 1e, on a besoin d’outils qui fluidifient les processus de création des données structurées.
A suivre…

ISWC 2008 (1) – Introduction

Me voici à Karlsruhe pour assister à ISWC 2008, conférence internationale sur le Web sémantique.

Visiblement, certains s’attendaient à ce que Got et moi bloguions la conférence en direct, mais c’était sans compter sur des conditions matérielles parfois insuffisantes et surtout, sur le fait que je suis une blogueuse libre : si c’est important pour moi de pouvoir mûrir un peu ce que je vois avant d’en rendre compte, vous êtes obligés de faire avec ;-)

D’abord quelques impressions générales : je m’y attendais, mais la conférence est assez technique et j’ai un peu l’impression d’être un extra-terrestre (beaucoup de chercheurs, quelques boîtes comme par exemple Talis mais pas de librarians !) Pourtant il y a eu des précédents où on était sans doute plus représentés en tant que profession, comme en 2006 ce cultural heritage Workshop.
En tout cas, cet éclairage sur l’ambiance générale peut être utile pour comprendre certaines de mes remarques sur ce que j’ai pu voir ici. Parfois j’adopte un peu le point de vue de l’utilisateur qui, s’étant glissé discrètement dans la salle, observe comment les informaticiens comprennent son besoin et ont l’intention d’y répondre…

Autre précision importante, j’ai beaucoup de mal avec le fait de bloguer la conférence « telle quelle » c’est-à-dire dans l’ordre où j’assiste aux « papiers ». Cet ordre a sans doute un sens pour les organisateurs, mais pas pour moi car déjà je ne vois pas tout (il y a des sessions parallèles) et le compte-rendu a aussi pour objectif de tout remettre dans une perspective qui réponde à mes intérêts spécifiques. Finalement, cela m’oblige à réorganiser tout ce que j’ai entendu autour des grands thèmes saillants de la conférence.

En l’occurrence, voici ce que j’ai identifié :

1. le positionnement global des acteurs du Semantic Web dans le paysage actuel, à la fois en termes d’objectifs de recherche, de développement logiciel, de positionnement commercial, etc.

2. la rencontre entre le SemWeb et les utilisateurs : visiblement une grosse difficulté, comment va-t-on réconcilier les besoins des « vrais gens » avec une technologie assez complexe ? Cette préoccupation est intéressante car elle reflète le mûrissement du SemWeb comme technologie qui commence à être utilisée dans la « vraie vie », hors du contexte de la recherche

3. les outils : visiblement une réponse importante (quantitativement au moins) au problème précédent

4. la normalisation : l’autre réponse au problème 2 ! mais pas une sinécure non plus.

Il va falloir que vous attendiez que j’aie une vue d’ensemble (et une prise de courant) pour rentrer dans le détail sur chacun de ces thèmes. Je ne parlerai pas des cas d’utilisation dans un domaine métier particulier sauf éventuellement pour illustrer mon propos sur les thèmes précédents. Je ne peux pas vous dire si j’aurai quelque chose d’intéressant à raconter sur le « Semantic Web challenge » et le « billion triple challenge » car ils n’ont pas encore eu lieu ;-) Enfin je ne vous décrirai pas la « poster & demo session », que j’ai passée avec Got, collés à notre propre poster sur lequel je ferai un billet spécifique plus tard si je suis de bonne humeur…

SIGB et métadonnées

Le JISC a publié récemment deux études intéressantes :

Library Management Systems Study (mars 2008), un état de l’art comparatif des principaux systèmes de SIGB utilisés dans les bibliothèques anglo-saxonnes et leurs perspectives d’évolution ;

Metadata for digital libraries: state of the art and future directions (avril 2008), un rapport de veille technologique dans lequel il est question en particulier de métadonnées de préservation (METS, PREMIS et tous leurs amis).

Je les ai justes parcourues mais ce que je peux en dire et qui m’a interpelée, c’est qu’aujourd’hui, en 2008, au JISC on pense que l’avenir des SIGB est dans le Web 2.0, les Web services et les mash-up, et que pour faire de belles métadonnées il faut du XML.
Je ne dis pas que c’est faux, hein, je suis moi-même assez attachée à mes annotations collaboratives et autres tags, je prône la liberté des données et il n’y a rien au monde qui me rassure plus que de savoir que mes métadonnées de préservation sont bien au chaud dans de beaux fichiers METS.
Toutefois, tout cela ne manquerait-il pas un peu de vision ? de modularité ? de technologies innovantes ? de standards décoiffants ? Un peu de Semantic Web quoi… ou c’est moi qui suis à côté de la plaque…

Des URI sympas pour le Web sémantique

En date du 1er avril, le W3C annonce avoir mis à jour le document Cool URIs for the Semantic Web, passé du statut de « draft » à celui de « interest group note » (ceux qui y comprennent quelque chose à la normalisation apprécieront cette évolution ;-)

C’est un document qui explique comment attribuer des URI à des ressources abstraites (c’est à dire, des ressources qui ne correspondent pas à une page Web). En particulier il décrit comment gérer la négociation de contenu qui va permettre de renvoyer tantôt une page Web, tantôt la référence d’une ressource abstraite suivant l’URI qu’on demande.

Quand on manipule des URI non actionnables, qui ne pointent pas forcément vers quelque chose (par exemple les info URI), on n’a pas ce genre de problème. Mais c’est quand même un document tout à fait essentiel à avoir sous la main quand on conçoit des URI pour le Web sémantique.

Normes

En vrac, l’actualité de ces derniers mois sur les normes et bonnes pratiques qui intéressent les données bibliographiques.

En janvier a été publiée la version définitive du rapport du « wogrofubico », le groupe de travail sur l’avenir des données bibliographiques, qui rassemblait entre autres la Library of Congress et Google. Il contient de nombreuses recommandations sur l’avenir de la coordination bibliographique, la visibilité des métadonnées, les technologies liées au Web comme les identifiants pérennes, la normalisation autour de RDA et FRBR, et son implémentation, etc.

En janvier aussi, l’IFLA a publié la dernière version des FRBRoo. Cette nouvelle version est compatible avec le CRM-Cidoc et avec les technologies du Web sémantique. Elle fait l’objet d’un appel à commentaires jusqu’au 21 avril.

A la fin de ce prolixe mois de janvier, le W3C a publié SKOS Simple Knowledge Organization System Reference, dernière version de ce modèle d’encodage des thésaurus pour le web sémantique. A lire avec dans l’autre main le SKOS primer sorti en février.

En février, l’IFLA a publié une version révisée des FRBR (pas oo).

En mars, la Library of Congress a présenté LCCN, son système d’identifiants pérennes pour ses notices bibliographiques.

En mars, la convergence entre le catalogage et le Web sémantique se renforce. Voir une initiative personnelle ici, mais surtout cette annonce d’un travail qui commence sur la RDFisation des RDA. Ce travail est piloté par le groupe de travail RDA/DCMI et inclut Alistair Miles (alias Monsieur SKOS).

Une version complète des RDA devrait voir le jour cet été.