Wall-e

Publié le 11/11/2008 par manuefig

ISWC 2008 (6) – les enjeux de la normalisation

Publié le 05/11/2008 par manuefig

Si tout le monde s’accorde à dire que la normalisation est une des grandes forces du Web sémantique, celle-ci est loin d’être un long fleuve tranquille. Le « panel » ou table ronde sur OWL 2 en était un bon exemple. J’ai entendu certains se lamenter que le fait de faire étalage des doutes, mésententes et contradictions qui existent dans la communauté autour de l’évolution normative risquait de la discréditer, mais je dois dire que je ne partage pas tout à fait cet avis. De mon point de vue, l’existence de forces contradictoires, voire de lobbys, dans un domaine normatif sont inévitables, sauf à considérer un domaine dont l’envergure est limitée et où le consensus s’impose de lui même. Il n’y a qu’à voir comment cela se passe à l’ISO TC46 où se discutent les normes du domaine de l’information. Bref, si ces normes font débat, c’est que beaucoup de gens s’y intéressent, ce qui est plutôt bon signe.

Après, en ce qui concerne la normalisation d’OWL 2, je ne suis pas sûre d’avoir perçu tous les enjeux mais en gros on peut les résumer comme cela : pour certains (notamment ceux qui ont une approche pragmatique du SemWeb dans l’esprit du Linked data), OWL est un formalisme beaucoup trop complexe et détaillé. Pour d’autres (en particulier les logiciens et tous ceux qui font des recherches sur l’aspect « raisonnement » du SemWeb), il est insuffisant et limité. Dans OWL 2, on propose un système de « profils » qui vont permettre de n’utiliser qu’un sous-ensemble de OWL tout en restant interopérable…. mais ce n’est pas simple de trouver un consensus.
L’enjeu est d’autant plus important que la tendance à l’ubiquité du Web pousse vers une utilisation très large d’OWL pour toutes sortes de besoins, alors que ce formalisme n’a jamais été conçu pour remplacer tous les modes de représentation des connaissances, pour certains prééxistants, qui peuvent être utiles dans leur diversité.

Si cela vous intéresse, je vous invite à lire les notes prises avec exhaustivité ici et l’analyse développée là.

J’ai aussi participé à une intéressante discussion de couloir sur la différence entre Powder et OAI-ORE.
C’est vrai que si on s’en tient à la définition de Powder :

« a mechanism through which structured metadata (« Description Resources ») can be authenticated and applied to groups of Web resources. »

et qu’on la compare à celle d’ORE :

« Open Archives Initiative Object Reusae and Exchange (OAI-ORE) defines standards for the description and exchange of aggregations of Web resources. »

on pourrait se poser des questions.
Alors pour résumer, Powder permet de qualifier en masse des triples en s’appuyant sur des expressions régulières dans les URI. L’assertion Powder porte sur chacun des triples sélectionnés (ex. tous ces triples ont pour langue le français). Au Powder est associé un mécanisme d’authentification qui permet de prouver l’origine des assertions. Powder intègre un protocole qui permet de demander en http des infos sur une seule URI. Usage prévu : par ex., demander la taille et le type de contenu avant d’afficher un site sur un mobile.
Au contraire Oai-ore est basé sur le principe des « named graph » (graphes nommés) c’est à dire que l’assertion associée à un ensemble de triples regroupés dans une « resource map » porte uniquement sur cette « resource map » et pas sur les triples eux-mêmes (voir mon explication d’Ore ici mais c’était pas très clair et il n’était pas encore en version 1.0, il faudrait que je me replonge dedans…) En plus dans Ore il n’y a pas de protocole.
Enfin, si j’ai bien compris, la principale différence entre les deux est que Powder sert à associer des métadonnées à des URIs à posteriori (ce n’est pas le créateur de la ressource qui le fait mais un tiers). Alors que dans Ore, on structure la description de la ressource en fonction des métadonnées qu’on veut lui associer (c’est le créateur de la ressource qui associe les métadonnées). Bon ça n’a l’air de rien, mais ça change tout.
Pardon pour cette petite digression. Donc il s’agit bien de deux choses complètement différentes, et chacun va pouvoir continuer à normaliser tranquillement dans son coin. Au fait, à quand un groupe de travail pour les bibliothèques dans le Web sémantique ?

Ce billet clôt la série ISWC 2008. J’en ai fini avec mon compte-rendu, vous pouvez reprendre une activité normale, c’est-à-dire, si vous êtes un geek, retourner lire d’autres blogs plus intéressants, et si vous êtes un bibliothécaire, c’est fini, tout va bien, vous pouvez revenir ;-)

ISWC 2008 (5) – exploiter les données

Publié le 02/11/2008 par manuefig

Alors voilà : on a créé plein de beaux triples, des URIs, des ontologies, on a tout publié sur le Web of data… et qu’est-ce qu’on fait maintenant ? La conférence était assez riche en présentations d’outils ou de cas d’utilisation de toutes sortes qui montrent toute la puissance qu’apporte le Web sémantique en termes d’utilisation des données.
Je ferai ici une mention spéciale au Semantic Web challenge, un concours annuel qui a pour objectif de montrer des réalisations concrètes. Cette année, le challenge se divisait en deux branches : une branche « ouverte » (open track) dans laquelle on pouvait proposer n’importe quelle application, et une intitulée « billion triple challenge » dont l’objectif était de présenter des outils capables de manipuler une quantité importante de données.
Au moment de la « poster session », tous les participants au challenge ont fait des démos de leurs outils, et 5 outils ont été sélectionnés pour la finale dans chaque catégorie. Le lendemain, chacun des 5 élus a présenté dans le grand amphithéâtre son outil en une dizaine de minutes et cela a été une session pleine d’émerveillements. La plupart des exemples que je vais vous présenter dans ce billet en sont tirés (mais pas tous).
Par contre je ne parlerai pas de tout, alors ne m’en voulez pas ;-) vous pouvez retrouver tout cela sur le site du Challenge.

Il y a plusieurs façons d’exploiter les données du SemWeb. Je les ai classées en 4 catégories…

Les « triple store »
Un « triple store » est une base de données optimisée pour stocker des données en RDF. En général on utilise le langage de requête SPARQL, langage normalisé du Web sémantique, pour interroger ou extraire les données.
Dans cette catégorie, mention spéciale à Virtuoso qui n’a pas été dans les 5 élus du « billion triple challenge » mais s’est fait remarquer pour avoir réussi à indexer 11 milliards de triples en SPARQL avec des temps de réponse paraît-il très impressionnants. Pour la scalabilité, ils se posent là.
Pourquoi n’ont-ils pas été retenus pour le « billion triple » alors, me direz-vous ? Parce que le challenge consistait pas seulement à stocker les données, mais à les exploiter.

Les raisonneurs
Un des principaux intérêts d’avoir des données en RDF et des ontologies, c’est de pouvoir faire des inférences, c’est-à-dire déduire des informations exprimées les informations implicites (par ex., si A est cousin(e) de B et que la propriété « cousin(e) de » est symétrique, alors B est cousin(e) de A). Il existe donc des outils, raisonneurs ou moteurs d’inférences, dont le rôle est de parcourir les triples et de générer des inférences, ce qui crée de nouveaux triples qui peuvent être ajoutés au stock disponible pour être à leur tour exploités.
Deux outils de ce type ont été présentés : Marvin et SAOR.
MARVIN met l’accent sur la scalabilité et la possibilité de générer un maximum de triples tout en évitant de créer des doublons. La qualité des noeuds ajoutés n’est pas prise en compte, l’objectif étant plutôt de mettre à disposition des chercheurs une méthode permettant de tester différents algorithmes de raisonnement sur de larges ensembles de donnés. Il a gagné le 3e prix du challenge dans sa catégorie.
Le second, SOAR, ayant pour objectif de servir à alimenter un moteur de recherche (SWSE, voir ci-dessous) s’intéresse au contraire beaucoup aux questions de qualité de l’information générée (veiller à ce que les inférences aient du sens) et de temps de réponse.
Je ne rentre pas dans les détails, car très franchement, ça me dépasse… Mais il est bon de savoir que ces engins existent. Pour ceux qui seraient restés interloqués devant l’échange de commentaires de mon précédent billet, sachez que l’on peut également faire de petites inférences avec SPARQL. Il « suffit » de ranger l’ontologie dans le même triple store que les données, et de les requêter ensemble. Un jour, Got vous expliquera en détail comment marche SPARQL et comment on peut faire de petites inférences avec (pas vrai ?)

Les outils de recherche
Haha. Voilà qui est délicat, j’ai failli appeler ça les « moteurs de recherche sémantique » mais ça ne va pas du tout. Ca, ça ou encore ça, ce sont des choses qu’on a tendance à appeler des moteurs de recherche sémantique mais ils n’ont RIEN à voir avec le Web sémantique donc sachez-le : ce n’est pas du tout de ce genre de choses que je parle.
Les outils dont je parle ici sont des moteurs de recherche dont la vocation est spécifiquement d’exploiter des données en RDF et en particulier les données présentes dans le Linked Data.
Sindice est un moteur de recherche qui permet d’exploiter des données publiées en RDF, qu’elles se trouvent dans des triple stores, dans des fichiers RDF, ou dans des pages HTML sous forme de métadonnées (microformats ou RDFa – pour en savoir plus sur RDFa, cliquez ici). Sindice surveille, collecte et indexe ces données (apparemment il opère aussi des fonctions de raisonnement mais je ne sais pas lesquelles). Ensuite, il met à disposition tout cela sous forme d’API pour qu’on puisse l’utiliser dans une autre application. Sindice est une des briques essentielles du Web of data car il va permettre de trouver les triples que l’on veut mettre dans les interfaces d’accès (voir ci-dessous).
Après, il existe d’autres moteurs de recherche qui exploitent les données en RDF mais je ne les ai pas tous vus en détail, et ils ont été écartés du « billion triple challenge » pour la même raison que Virtuoso. J’ai par exemple pas mal entendu parler de SWSE (paper), un moteur orienté objet qui fournit un point d’accès en SPARQL (ce que ne fait pas Sindice).

Les interfaces de navigation
C’est dans cette catégorie que je vais ranger les deux gagnants du Semantic Web Challenge.
Dans la catégorie « billion triple », c’est SemaPlorer qui l’emporte. Il s’agit d’une interface d’exploration de données en RDF qui démarre avec de la géolocalisation et continue avec de la navigation à facettes. Vous pouvez regarder la démo sous forme de vidéo sur le site : c’est assez séduisant en termes de fonctionnalités. Enfin évidemment, ce qui a surtout pesé dans le résultat c’était l’architecture sous-jacente, avec du cloud computing d’Amazon (EC2), et 25 triple stores distincts qui sont fédérés par un point d’accès SPARQL, NetworkedGraphs. Le résultat est donc assez bluffant mais plutôt moche.
On ne peut pas en dire autant du gagnant de l’open track : Paggr. Imaginez un genre de Netvibes, mais dans lequel toutes les données seraient converties en RDF pour pouvoir être reliées et exploitées en déchaînant toute la puissance du Web sémantique. Bah, je vois bien que vous n’arrivez pas à imaginer ;-) alors regardez la vidéo, et je vous raconte juste le truc qui m’a le plus bluffée : quand il a glissé le nom d’un de ses contacts sur le widget Google maps, et qu’en analysant je ne sais quelles données ça lui a localisé la personne…
Un petit dernier pour la route : Freebase Parallax, une interface à facettes pour naviguer dans les données de Freebase. Elle est vraiment pas mal celle-là.

Inclassables et inoubliables
Je ne peux pas arrêter ce billet déjà beaucoup trop long sans évoquer les deux projets qui sont peut-être les plus riches d’enseignements pour notre communauté.
Le premier a reçu le 3e prix dans l’open track, il s’agit de Health Finland. Il s’agit d’une sorte de portail qui donne accès à une masse hétérogène d’informations médicales en Finlande. Son objectif est de faire se rencontrer les requêtes des citoyens internautes avec des données très structurées et modélisées dans des vocabulaires professionnels parfois hermétiques. Pour cela, il ont modélisé les différents vocabulaires professionnels en SKOS et les ont alignés avec une ontologie de haut niveau qui, elle, utilise un vocabulaire « grand public ». C’est vraiment une approche très convaincante.
ClioPatria n’a pas été présenté dans le Challenge mais on nous en a parlé dans les lightening talks (voir mon twitter) ainsi que dans la présentation du projet e-culture dont j’avais parlé dans ce billet. J’adore toujours autant le projet, et je ne suis pas la seule car il a été assez remarqué dans les « best papers awards ». Donc, il utilise ClioPatria, une plateforme de navigation dans des données en RDF qui utilise le concept de facettes mais aussi les requêtes SPARQL et un système de clustering assez séduisant. On a également appris qu’il allait être utilisé par Europeana.

J’aimerais bien continuer à vous raconter mais ce billet m’a épuisée… Je pense que je vais laisser de côté les outils pour passer à autre chose. De toutes façons, il sera toujours temps d’y revenir plus tard dans un billet plus détaillé sur l’un ou l’autre.

ISWC 2008 (4) – Simplifier le Semantic Web – un problème d’outils ?

Publié le 01/11/2008 par manuefig

La communauté présente à ISWC est quand même largement (mais pas exclusivement, j’en suis la preuve vivante ;-) composée de développeurs et d’informaticiens qui, très naturellement, cherchent la solution à leurs problèmes dans les outils. Or, l’un des problèmes majeurs du SemWeb est le suivant : comment rendre simple aux yeux des utilisateurs ce qui est, de toute évidence, compliqué, à savoir la structure complexe des données qui composent le SemWeb.

L’enjeu se situe à la fois du côté de la production et de l’usage. Commençons par la production.

Je classerais les outils d’aide à la production que j’ai vus en deux catégories : les assistants à la production d’ontologies, et les interfaces de type wiki.

Les premiers, auxquels une session était consacrée, ont principalement pour objectif de permettre à des « experts métier », c’est à dire des personnes qui ont d’importantes connaissances thématiques mais pas de compétences techniques en gestion des connaissances, de produire ou contribuer à la production des ontologies de leur domaine. Je ne vais pas rentrer dans les détails, cela allait du plug-in pour travailler en collaboratif dans Protégé à un outil qui transforme du pseudo langage naturel (des phrases simples comme « there are students, professors and universities ; ‘PhD Student’ is a type of student » etc.) en classes et propriétés dans une ontologie. On peut même générer des ontologies et des triples en utilisant des feuilles de calcul.
Ce qui m’a particulièrement frappé, c’est que quelle que soit l’ingéniosité déployée par les concepteurs de ces outils pour les rendre puissants, souples, attractifs, simples, riches et bien d’autres choses encore, leur constat final était toujours le même : l’ontologie résultant de ce processus n’est pas de qualité suffisante pour permettre de l’exploiter sans l’intervention préalable d’un « knowledge engineer », un expert en ontologies.

Un peu décevant, n’est-ce pas ? Alors tournons-nous vers l’autre hypothèse, celle des wikis (ou wiki-like) sémantiques. En fait, il existe toute une gamme d’outils qui permettent de générer des données en RDF de manière plus ou moins transparente pour l’utilisateur, dans la mouvance du Web 2.0. On peut citer par exemple Semantic Media Wiki (voir aussi ici). Dans la même veine, on nous a présenté divers outils de « semantic desktop » ou de « semantic knowledge management », comme par exemple K-now qui permet de créer des ontologies sous forme de formulaires puis de créer des triples en remplissant les formulaires.
Je me réfèrerai de nouveau à l’intervention de Mark Greaves (au passage, si vous voulez savoir ce qu’il a vraiment raconté, vous pouvez lire ces notes bien plus précises que les miennes). En étudiant les wikis sémantiques on peut tirer quelques leçons essentielles :
– l’importance des interfaces utilisateurs (il faut que ce soit joli et facile à utiliser)
– l’importance du « jardinage » (il faut des gens qui font sans arrêt du petit nettoyage, sinon ça devient du grand n’importe quoi)
– les ontologies créées par les utilisateurs (du wiki) sont médiocres (elles sont moins structurées et moins riches que ce qu’on pourrait attendre)
– on est obligés de compléter la structure RDF par du langage naturel.

Bon, je ne peux pas achever ce panorama des outils de production sans parler de Freebase. Freebase a fait l’objet d’une keynote assez largement reconnue comme excellente. Freebase est une sorte de Wikipedia, mais qui repose sur des données structurées modélisées sous forme de graphe. Dans Freebase, les utilisateurs peuvent ajouter des données mais aussi agir sur la façon dont elles sont organisées (il était question de « schéma » plutôt que d' »ontologie »).

Je passe sur la description détaillée et je saute directement à la conclusion : Freebase, est-ce ou non du Web sémantique ? John Giannandrea qui présentait la keynote a lui-même posé la question, en disant que oui (parce qu’elle repose sur des données modélisées sous forme de graphe et qu’elle apporte une importance toute particulière aux URIs) et non (parce qu’elle ne contient pas d’ontologie et n’implémente pas les aspects description logique). A quoi Ivan Herman, qui pilote l’activité SemWeb au W3C, a répondu que la logique n’était pas obligatoire et que, bienvenue dans le Web sémantique.
Je ne sais pas s’ils auraient été aussi bien accueillis s’ils n’avaient pas, il y a à peine un mois, mis en place un accès à Freebase en RDF qui permet d’exploiter les données de Freebase dans le Linked Data. Voir les réserves de Got exprimées il y a un an (il vous dirait qu’ils ne font toujours pas de SPARQL et que ça craint, mais autant que je sache, SPARQL n’est pas un critère de base pour être dans le linked data ;-).
Evidemment si on s’intéresse, une fois encore, à la qualité des données et de la modélisation, on obtiendra des réponses bien naturelles comme « il vaut mieux des données inexactes que pas de données » ou « cela ne peut que s’améliorer avec le temps ». Que celui qui n’a jamais renoncé à corriger un article dans Wikipedia leur jette la première pierre…

Bref bref : c’est pas demain que n’importe qui pourra faire des ontologies. En sortant de là, je me demandais pourquoi la question (de réussir à associer des « non experts » à la production des ontologies) n’était posée qu’en termes d’outils, et pas d’une façon plus large en termes d’organisation, de ressources humaines, de montée en compétences, etc.
Ca doit être un truc de bibliothécaire, en tout cas je ne suis pas surprise de constater que n’importe qui ne peut pas modéliser des données, même avec un super outil qui fait tout tout seul (même si je pense qu’on pourrait essayer d’aider les gens en les formant).
En tout cas, d’après ce que j’ai pu entendre à plusieurs reprises, que ce soit dans les conférences ou autour d’un repas, la modélisation des données reste un des problèmes majeurs du Web sémantique aujourd’hui.

ISWC 2008 (3) – être visible sur le Web : linked data

Publié le 30/10/2008 par manuefig

L’initiative « Linked Data » est un des faits marquants du SemWeb ces dernières années et il est intéressant de voir qu’elle est complètement intégrée dans la « vie quotidienne » de la communauté SemWeb. Il y en a qui disent même qu’elle aurait sauvé le SemWeb d’une mort certaine ;-) En tout cas, tout comme l’observation des tendances du Web, le « linked data » est plutôt un thème omniprésent de la conférence mais cela me semble intéressant de faire un focus dessus car il intéresse particulièrement la communauté des bibliothèques.

Le linked data, c’est une des visions du Web Sémantique (pas la seule visiblement) dans laquelle l’objectif de base est de mettre en ligne le plus possible de données structurées en RDF (des « triples »). Pas d’inférence, pas de raisonnement logique ou d’intelligence artificielle à ce niveau : il s’agit déjà de mettre les données à disposition pour qu’elles puissent être réutilisées dans d’autres contextes. (On peut difficilement imaginer quelque chose qui soit plus dans l’esprit des bibliothèques, pas vrai ?)
Une consigne de base : mettre le plus possible de liens (je veux dire, d’URIs déréférençables – en savoir plus) dans les triples, pour faciliter la navigation dans le Web of data. Le linked data, c’est le mash-up ultime, c’est le « Web of data » qui constitue le matériau que pourront réutiliser les machines pour rendre des services, répondre à des questions, etc.

Donc en fait, à chaque fois que quelqu’un dit qu’il a créé des triples, on lui demande s’ils sont disponibles en linked data. La question a été sensible autour de Freebase (je reviendrai dessus) qui a récemment publié ses données dans le Web of Data.

Mais me direz-vous, qu’est-ce que ça va nous apporter de mettre nos données dans le linked data ? Je vous en citerai deux exemples qui m’ont particulièrement frappé.

Le premier est un projet réalisé par une équipe de recherche d’Amsterdam qui porte sur l’interopérabilité des informations d’actualité (« news items »). Le projet était (brillamment) présenté par Raphaël Troncy. Pour être exploitables, les actualités ont besoin d’être contextualisées, et homogénéisées entre des différents médias et leurs formats de métadonnées respectifs. Pour ce faire, le projet NewsML propose une modélisation en RDF des données d’actualités et des différents vocabulaires utilisés pour les écrire, attribue partout des URI déréférençables, puis fait une série de manipulations pour enrichir ces données.
Parmi les manipulations en question, on notera deux choses : la reconnaissance d’entités nommées (réalisée grâce à Open Calais), et l’utilisation du Linked data pour assigner aux entités nommées trouvées des URI correspondant aux ressources qui existent dans le Linked Data.
Donc : si mes données sont disponibles dans le Web of data, et que mes URI sont déréférençables, je pourrai grâce à ce système gagner en visibilité puisque mes données seront reliées à des faits d’actualité.

Autre exemple : DBPedia Mobile.
Il s’agit d’une application développée par (entre autres?) la Freie Universität de Berlin pour naviguer dans le Web of data sur un téléphone portable. L’idée est de géolocaliser automatiquement l’utilisateur, puis de lui proposer une carte sur laquelle il peut naviguer pour obtenir des informations sur les lieux remarquables, des photos, des services, etc. (démo) et également publier ses propres photos ou autres documents.
Le point de départ est DBPedia (pour tout savoir sur DBPedia, cliquez ici) mais ensuite l’idée est de se promener sur les autres sites du Web of Data.
Donc… si mes données sont sur le Web of Data, plus besoin de développer des interfaces compliquées pour favoriser la mobilité : elles seront accessibles à partir d’applications développées par d’autres.

Ce ne sont que quelques exemples, les applications exploitant la richesse du linked data étant chaque jour plus nombreuses.
Mais me direz-vous, c’est bien compliqué pour moi, bibliothèque, de mettre mes données sur le Web of data, je ne sais pas les convertir facilement en RDF… Et là aussi j’ai la réponse : si vous avez un entrepôt OAI, vous pouvez utiliser OAI2LOD.

Evidemment, pour que ce soit vraiment efficace il nous reste du boulot pour relier nos données avec d’autres. Mais ce serait déjà un bon début non ?

ISWC 2008 (2) – les tendances du Web

Publié le 30/10/2008 par manuefig

On pourrait penser qu’au bout de 7 ans de conférences ISWC, la communauté qui se retrouve ici n’aurait plus besoin de se justifier quant à l’utilité et l’importance de ses travaux. Ce n’est pas tout à fait le cas, d’ailleurs le dernier keynote speaker, Stefan Decker du DERI, a organisé sa conférence autour de l’idée que pour sauver le SemWeb, on avait avant tout besoin d’un message attractif et unifié (« appealing unified message »), aucun de ceux qui ont été proposés jusqu’à maintenant dans la communauté n’ayant le pouvoir nécessaire pour… lever des fonds.

De fait, j’ai trouvé intéressant le discours (un peu éparpillé dans la conférence) visant à replacer l’initiative du SemWeb dans le contexte plus large du Web, afin de voir comment il peut être utile aux « vrais gens ».

Le premier keynote speaker, Ramesh Jain (University of California, Irvine), a rappelé que l’objectif des technologies du SemWeb est de combler le « semantic gap » : c’est-à-dire le fossé qui existe entre les documents tels qu’on sait les représenter sur le Web (des trains de bits, des caractères alphanumériques, des fichiers, des listes, des images, des vidéos etc.) et les besoins qu’ont les utilisateurs de manipuler des concepts abstraits reposant sur des objets ou des événements.

Le fossé sémantique se situe entre les deux, mais la question reste ouverte : les technologies qui sont développées dans le cadre du SemWeb permettent-elles de combler le fossé, ou ne font-elles qu’améliorer la qualité technologique existante de chaque côté…

La réponse à cette question semble résider assez largement dans l’observation des tendances du Web, et ce qu’elles nous enseignent sur les moyens technologiques qui existent ou que nous devons développer pour améliorer l’expérience utilisateur.

Sur ce sujet, j’ai beaucoup apprécié la présentation du projet Theseus par SAP research (pour ceux qui n’auraient pas suivi, Theseus est la branche allemande qui s’est détachée de Quaero).
L’objectif est limpide : il faut simplifier la technologie pour l’apporter aux gens.
Nous nous situons dans un contexte où la notion de services est devenue clef. Nous sommes passés d’un système où les processus répondant à des besoins spécifiques étaient codés « en dur » dans les applications, à un système reposant sur de multiples services combinés entre eux pour constituer une chaîne de valeurs (« value chain »). Il s’agit d’une tendance lourde du Web d’aujourd’hui qui oblige les entreprises à être plus « agiles » : on n’achète plus une machine ou un logiciel, on achète le service que rend la machine ou le logiciel. Si la machine a un problème, quelqu’un vient la réparer. C’est le règne du SAS (Software as a service).
Dans ce contexte, que nous enseigne l’observation des entreprises qui ont véritablement réussi sur le Web ? L’intervenant a pris l’exemple d’Amazon et de iTunes pour montrer que le secret de leur réussite c’est le fait de couvrir toute la chaîne de valeur, de la création des contenus jusqu’à leur utilisation finale, tout en intégrant un écosystème de partenaires dans leur plateforme via des services à valeur ajoutée.
L’objectif de Theseus est de créer justement une plateforme de services à valeur ajoutée qui puisse être réutilisée dans la chaîne de valeur de différents acteurs, y compris des petits entrepreneurs du Web, avec un faible ticket d’entrée technologique.
Globalement, le discours était vraiment très séduisant. On ne voit juste pas trop comment le SemWeb s’intègre dans cette vision ;-) si ce n’est par la conclusion : « semantics are a key enabler ».

Essayons d’aller plus loin…

Finalement, ainsi que l’a décrit Mark Greaves de Vulcan Inc. dans sa présentation sur les « semantic wikis », ce qu’apporte le SemWeb au monde de l’information aujourd’hui se divise en deux branches : une branche « entreprise » (au sens large du terme, c’est-à-dire que cela consiste à utiliser les technologies du Web sémantique dans un contexte métier, très contrôlé et structuré), et une branche qui consiste à essayer d’améliorer l’expérience utilisateur sur le Web, la question étant de savoir où et comment ces deux branches se rencontrent. En fait, le profit qu’elles apportent l’une à l’autre va dans les deux sens :
– de la 1e branche vers la 2e, on a besoin de données « expertes » créées dans un contexte métier pour alimenter le « Web of data » ;
– de la 2e branche vers la 1e, on a besoin d’outils qui fluidifient les processus de création des données structurées.
A suivre…

ISWC 2008 (1) – Introduction

Publié le 29/10/2008 par manuefig

Me voici à Karlsruhe pour assister à ISWC 2008, conférence internationale sur le Web sémantique.

Visiblement, certains s’attendaient à ce que Got et moi bloguions la conférence en direct, mais c’était sans compter sur des conditions matérielles parfois insuffisantes et surtout, sur le fait que je suis une blogueuse libre : si c’est important pour moi de pouvoir mûrir un peu ce que je vois avant d’en rendre compte, vous êtes obligés de faire avec ;-)

D’abord quelques impressions générales : je m’y attendais, mais la conférence est assez technique et j’ai un peu l’impression d’être un extra-terrestre (beaucoup de chercheurs, quelques boîtes comme par exemple Talis mais pas de librarians !) Pourtant il y a eu des précédents où on était sans doute plus représentés en tant que profession, comme en 2006 ce cultural heritage Workshop.
En tout cas, cet éclairage sur l’ambiance générale peut être utile pour comprendre certaines de mes remarques sur ce que j’ai pu voir ici. Parfois j’adopte un peu le point de vue de l’utilisateur qui, s’étant glissé discrètement dans la salle, observe comment les informaticiens comprennent son besoin et ont l’intention d’y répondre…

Autre précision importante, j’ai beaucoup de mal avec le fait de bloguer la conférence « telle quelle » c’est-à-dire dans l’ordre où j’assiste aux « papiers ». Cet ordre a sans doute un sens pour les organisateurs, mais pas pour moi car déjà je ne vois pas tout (il y a des sessions parallèles) et le compte-rendu a aussi pour objectif de tout remettre dans une perspective qui réponde à mes intérêts spécifiques. Finalement, cela m’oblige à réorganiser tout ce que j’ai entendu autour des grands thèmes saillants de la conférence.

En l’occurrence, voici ce que j’ai identifié :

1. le positionnement global des acteurs du Semantic Web dans le paysage actuel, à la fois en termes d’objectifs de recherche, de développement logiciel, de positionnement commercial, etc.

2. la rencontre entre le SemWeb et les utilisateurs : visiblement une grosse difficulté, comment va-t-on réconcilier les besoins des « vrais gens » avec une technologie assez complexe ? Cette préoccupation est intéressante car elle reflète le mûrissement du SemWeb comme technologie qui commence à être utilisée dans la « vraie vie », hors du contexte de la recherche

3. les outils : visiblement une réponse importante (quantitativement au moins) au problème précédent

4. la normalisation : l’autre réponse au problème 2 ! mais pas une sinécure non plus.

Il va falloir que vous attendiez que j’aie une vue d’ensemble (et une prise de courant) pour rentrer dans le détail sur chacun de ces thèmes. Je ne parlerai pas des cas d’utilisation dans un domaine métier particulier sauf éventuellement pour illustrer mon propos sur les thèmes précédents. Je ne peux pas vous dire si j’aurai quelque chose d’intéressant à raconter sur le « Semantic Web challenge » et le « billion triple challenge » car ils n’ont pas encore eu lieu ;-) Enfin je ne vous décrirai pas la « poster & demo session », que j’ai passée avec Got, collés à notre propre poster sur lequel je ferai un billet spécifique plus tard si je suis de bonne humeur…

Politique

Publié le 26/10/2008 par manuefig

Je ne suis pas spécialement une adepte du métablogging (le métablogging est au blog ce que les métadonnées sont aux données : bloguer à propos du blog :-) ce qui fait que j’ai pu écrire pendant des années sans jamais ressentir le besoin d’expliquer ma « politique éditoriale » (à part de façon minimaliste, ou pour indiquer que je partais en vacances). Pourtant elle existe bel et bien, et régulièrement, je la remets en cause, en change une règle ou deux, m’accorde (ou ne m’accorde pas) des exceptions et des digressions.

Aujourd’hui, alors que j’ai sérieusement envisagé d’arrêter de bloguer, je ressens davantage le besoin de faire un point sur : pourquoi / comment je blogue ? Aussi parce que je ne peux plus tout à fait ignorer le fait que quelques personnes lisent ce que j’écris, que je n’écris pas que pour moi-même. Le contrat de lecture ne peut plus être totalement implicite, j’ai besoin de m’expliquer.

Voici donc, en 10 points, la politique éditoriale de mon blog.

Mon blog est un outil de gestion de connaissances personnel (PKM pour les intimes… oups !)
Je blogue d’abord pour moi-même, cela a toujours été le cas et doit le rester. Le fait de vouloir bloguer pour les gens qui me lisent est la première marche vers le découragement : peur de ne pas être à la hauteur de leurs attentes, peur d’être trop technique ou pas assez, risque de se sentir obligé de bloguer sur des sujets qu’on n’a pas envie, risque de devenir médiocre en recherchant l’audience… Tout cela finit par me donner l’impression que je perds mon temps en bloguant. Donc, avant chaque billet, m’astreindre à me demander s’il m’est utile, à moi.

Mon blog n’est pas exhaustif
Cela m’est parfois arrivé de me sentir obligée de bloguer un truc simplement pour être exhaustive dans ma veille sur certains sujets, « au cas où les gens compteraient sur moi » pour en parler. Je ne veux plus me fixer ce genre d’impératifs. Nous sommes suffisamment nombreux maintenant dans la biblioblogosphère francophone pour qu’aucun de nous ne se sente obligé de bloguer. Considérons que l’exhaustivité ne peut être que collégiale.

Mon blog n’est pas unique
Et son contraire est vrai également : il m’est arrivé de m’interdire de bloguer un truc parce que quelqu’un l’avait fait avant moi. Ce qui est idiot car après, quand j’ai besoin de réutiliser l’info pour un autre usage, c’est dans mon blog que je cherche, pas dans celui des autres. Je m’autoriserai donc à doublonner.

Mon blog est un réservoir bibliographique…
En effet, un des principaux usages avérés de mon blog est d’être un réservoir directement utilisable quand je dois écrire un article ou préparer un support sur un sujet. Je l’utilise pour récupérer les références amassées et gagner du temps sur la rédaction et la structuration de mes idées.

… inexploré
Jusqu’à maintenant, j’avais une règle qui était de ne pas publier une référence sans avoir pris le temps de la lire et d’en faire une revue critique. Clairement, ce n’est plus possible aujourd’hui, je n’ai plus le temps. J’envisage donc de publier plus régulièrement des liens sans avoir lu leur contenu, de façon à pouvoir les stocker pour plus tard. (Auparavant je faisais cela dans Delicious, mais Delicious n’est pas un réservoir de liens, c’est un cimetière ;-)

Mon blog reflète mes intérêts, pas mon expertise
Beaucoup de blogueurs privessionnels ont expérimenté cela : on a pu m’attribuer une certaine expertise sur des sujets qui reviennent régulièrement sur ce blog. Mais cela me semble utile de rappeler que j’utilise le plus souvent le blog comme outil de réflexion sur les sujets que justement, je voudrais maîtriser mieux. Bloguer sur les sujets où on se sent expert finit par être plutôt ennuyeux et redondant. Je me fixe comme objectif d’élargir le champ de mes centres d’intérêts, et d’en abandonner des vieux au profit des nouveaux.

Mon blog est un terrain d’apprentissage
Le fait de m’astreindre à écrire, donc à structurer ma pensée et à documenter mon propos, me permet de monter en compétences sur le sujet que j’aborde. Quand je relis des vieux billets je souris parfois devant ma naïveté passée… mais c’est très important pour moi justement de préserver cet espace de naïveté. Je suis comme un stagiaire à qui on demande une fiche de lecture sur un sujet pour voir s’il en a bien compris les enjeux. Ce sont des billets de « réflexion apprenante » sur lesquels je sollicite également l’oeil critique de mes lecteurs.

Il ne faut pas mélanger travail et plaisir. Enfin si.
Bloguer utile, c’est bloguer sur les sujets qui vont alimenter les projets en cours, les réflexions sur le feu et les sujets d’actualité du boulot. Il y a donc un déterminisme fort du travail sur le blog… Mais le blog c’est pour le plaisir avant tout, alors pas de contraintes ! Le blog est aussi une démarche personnelle et indépendante, avec toute liberté de s’éloigner du dur labeur quotidien.

Mon blog n’est pas prioritaire sur la vie
Vous m’y avez vous-mêmes encouragée, il faut tolérer le ralentissement. Quand on a autre chose à faire, on ne blogue pas et ce n’est pas grave. Je vous annonce donc très officiellement que je me suis fixé d’écrire un billet par semaine, et que je n’ai pas l’intention de m’y tenir ;-)

Bloguer libre ou mourir !
Je voudrais surtout éviter d’avoir à me prendre la tête sur chaque mot que j’écris en me demandant comment il pourrait être (mal) perçu. Considérons donc cette mise au point comme la porte ouverte sur la possibilité de bloguer exactement comme j’en ai envie, avec insouciance, irrégularité, dans l’approximation et l’imperfection, et sans me prendre au sérieux. Comme j’ai toujours essayé de le faire.

A l’Est, du nouveau

Publié le 18/10/2008 par manuefig

La dernière lettre de la section Information Technology de l’IFLA contient deux articles intéressants.

Le premier relate l’expérience de la bibliothèque universitaire de Vilnius pour mettre en place des services 2.0. Ce que je trouve intéressant dans cet article c’est qu’il ne présente pas le versant technologique de la chose (dont on a soupé, franchement : des articles qui expliquent encore ce que sont les blogs et les wikis !). Il se positionne du point de vue de ce qui pose vraiment problème dans la mise en place d’un projet de bibliothèque 2.0 : la mobilisation des agents et l’accompagnement au changement. Ainsi, avant de mettre en place des services 2.0 dans la bibliothèque, ils ont sondé les personnels (et l’encadrement en particulier) sur leur niveau de compétences technologiques puis ont organisé un plan de formation approprié.
L’initiative a débouché sur un blog interne, un blog des guides touristiques de la bibliothèque, un compte delicious, et un wiki pour le personnel qui permet d’avoir toutes les informations sur le plan de formation en question.

Le second décrit l’initiative PIONER qui a permis à des bibliothèques numériques polonaises de créer une Fédération qui bénéficie de son portail. Un framework en open source, dLibra, a été développé pour être mis à disposition des bibliothèques locales pour mettre en ligne leurs fonds. Ensuite l’ensemble est fédéré via OAI-PMH.

Pour le contexte : la section IT de l’IFLA est là où se discutent les enjeux des évolutions technologiques pour les bibliothèques. On y parle beaucoup de « library 2.0 » en ce moment forcément, mais pas seulement : cet été à Montréal elle co-organisait avec la section Préservation et l’ICABS (qui s’occupe de normes bibliographiques) une conférence sur la préservation numérique pour laquelle avec plusieurs collègues nous avions écrit cet article (traduction française). L’été prochain, il y aura une pré-conférence satellite à Florence sur le thème « Emerging trends in technology: libraries between Web 2.0, semantic web and search technology »… et j’espère bien y aller !

To blog or not to blog ?

Publié le 12/10/2008 par manuefig

Récemment, deux événements importants sont arrivés dans ma vie, l’un dans ma vie personnelle, l’autre dans ma vie professionnelle. Ces deux événements ont été synonymes de changement, dans le sens de davantage de responsabilités, et le temps dont je dispose pour bloguer en a été directement affecté.
On voit bien le résultat : sur toute l’année 2008 je n’ai même pas écrit 30 billets (soit moins d’un par semaine), alors qu’avant je maintenais sans trop de difficultés de le rythme d’un billet tous les deux ou trois jours.

Devant un tel constat, et le peu d’espoir que tout à coup je me remette miraculeusement à avoir du temps pour moi, une décision radicale s’impose. Il faut que je décide quoi faire de ce blog, s’il doit, s’il peut vivre… ou non.

Le premier événement dont je parle (pour ceux qui n’auraient pas suivi, j’ai eu un bébé) m’a fait réaliser une chose importante. Un blog « privessionnel » se situe dans la sphère du professionnel plus que dans celle du privé. Le travail nourrit le blog, même si on ne blogue pas son travail mais sa profession : ainsi, ayant été en congés pendant des mois, je me suis dit « chouette, je vais avoir plein de temps pour bloguer ! » Et pourtant je ne l’ai pas fait, ou si peu. Je continuais à faire de la veille, à lire des biblio-choses, pour la plupart intéressantes… mais l’envie de bloguer, ou la capacité, n’était pas là.

Or me voici de retour parmi les actifs, et maintenant confrontée au second événement : tout en restant dans le même établissement, j’ai changé de poste et je me trouve maintenant face à un éventail beaucoup plus large d’activités et de personnes, et sollicitée de façon beaucoup plus intense. Pourtant, tout en étant parfois complètement noyée sous le boulot dans mon nouveau poste, j’ai retrouvé l’envie et l’énergie de bloguer, des sujets d’intérêt, une structuration de ma pensée appropriée. Le blog se nourrit de l’infobésité, de la surcharge d’activité fébrile des périodes de travail intense.
Enfin, autant que faire se peut ! Après tous ce temps de silence, je me suis retrouvée victime d’une vieille terreur, l’angoisse de la page blanche, la timidité du blogueur débutant. Depuis ma nouvelle place, je ne savais plus comment me lancer dans ce monologue public qu’est le blog, je ne savais plus comment concilier mes différentes identités, notamment vis à vis de mes collègues (je sais que vous êtes là, c’est pas discret, vous vous appelez tous athena.bnf.fr ;-)

Il faut réussir à concilier tout cela, trouver sa place, se reposer les questions de base : qui suis-je ? pourquoi blogué-je ? etc.

Des changements s’annoncent.
Pour mieux gérer mon temps, je vais devoir changer ma façon de faire ma veille. Pour mieux gérer le rapport entre mon travail et mon blog, je vais devoir ajuster ma « politique de publication ».
Bref, mon blog va changer. J’y réfléchis, et dès que j’arrive à quelque chose, je vous préviens ;-)

Figoblog

Un blog sur Internet, la bibliothéconomie et la confiture de figues

Archives d’Auteur: manuefig