ISWC 2008 (4) – Simplifier le Semantic Web – un problème d’outils ?

La communauté présente à ISWC est quand même largement (mais pas exclusivement, j’en suis la preuve vivante ;-) composée de développeurs et d’informaticiens qui, très naturellement, cherchent la solution à leurs problèmes dans les outils. Or, l’un des problèmes majeurs du SemWeb est le suivant : comment rendre simple aux yeux des utilisateurs ce qui est, de toute évidence, compliqué, à savoir la structure complexe des données qui composent le SemWeb.

L’enjeu se situe à la fois du côté de la production et de l’usage. Commençons par la production.

Je classerais les outils d’aide à la production que j’ai vus en deux catégories : les assistants à la production d’ontologies, et les interfaces de type wiki.

Les premiers, auxquels une session était consacrée, ont principalement pour objectif de permettre à des « experts métier », c’est à dire des personnes qui ont d’importantes connaissances thématiques mais pas de compétences techniques en gestion des connaissances, de produire ou contribuer à la production des ontologies de leur domaine. Je ne vais pas rentrer dans les détails, cela allait du plug-in pour travailler en collaboratif dans Protégé à un outil qui transforme du pseudo langage naturel (des phrases simples comme « there are students, professors and universities ; ‘PhD Student’ is a type of student » etc.) en classes et propriétés dans une ontologie. On peut même générer des ontologies et des triples en utilisant des feuilles de calcul.
Ce qui m’a particulièrement frappé, c’est que quelle que soit l’ingéniosité déployée par les concepteurs de ces outils pour les rendre puissants, souples, attractifs, simples, riches et bien d’autres choses encore, leur constat final était toujours le même : l’ontologie résultant de ce processus n’est pas de qualité suffisante pour permettre de l’exploiter sans l’intervention préalable d’un « knowledge engineer », un expert en ontologies.

Un peu décevant, n’est-ce pas ? Alors tournons-nous vers l’autre hypothèse, celle des wikis (ou wiki-like) sémantiques. En fait, il existe toute une gamme d’outils qui permettent de générer des données en RDF de manière plus ou moins transparente pour l’utilisateur, dans la mouvance du Web 2.0. On peut citer par exemple Semantic Media Wiki (voir aussi ici). Dans la même veine, on nous a présenté divers outils de « semantic desktop » ou de « semantic knowledge management », comme par exemple K-now qui permet de créer des ontologies sous forme de formulaires puis de créer des triples en remplissant les formulaires.
Je me réfèrerai de nouveau à l’intervention de Mark Greaves (au passage, si vous voulez savoir ce qu’il a vraiment raconté, vous pouvez lire ces notes bien plus précises que les miennes). En étudiant les wikis sémantiques on peut tirer quelques leçons essentielles :
– l’importance des interfaces utilisateurs (il faut que ce soit joli et facile à utiliser)
– l’importance du « jardinage » (il faut des gens qui font sans arrêt du petit nettoyage, sinon ça devient du grand n’importe quoi)
– les ontologies créées par les utilisateurs (du wiki) sont médiocres (elles sont moins structurées et moins riches que ce qu’on pourrait attendre)
– on est obligés de compléter la structure RDF par du langage naturel.

Bon, je ne peux pas achever ce panorama des outils de production sans parler de Freebase. Freebase a fait l’objet d’une keynote assez largement reconnue comme excellente. Freebase est une sorte de Wikipedia, mais qui repose sur des données structurées modélisées sous forme de graphe. Dans Freebase, les utilisateurs peuvent ajouter des données mais aussi agir sur la façon dont elles sont organisées (il était question de « schéma » plutôt que d' »ontologie »).

Je passe sur la description détaillée et je saute directement à la conclusion : Freebase, est-ce ou non du Web sémantique ? John Giannandrea qui présentait la keynote a lui-même posé la question, en disant que oui (parce qu’elle repose sur des données modélisées sous forme de graphe et qu’elle apporte une importance toute particulière aux URIs) et non (parce qu’elle ne contient pas d’ontologie et n’implémente pas les aspects description logique). A quoi Ivan Herman, qui pilote l’activité SemWeb au W3C, a répondu que la logique n’était pas obligatoire et que, bienvenue dans le Web sémantique.
Je ne sais pas s’ils auraient été aussi bien accueillis s’ils n’avaient pas, il y a à peine un mois, mis en place un accès à Freebase en RDF qui permet d’exploiter les données de Freebase dans le Linked Data. Voir les réserves de Got exprimées il y a un an (il vous dirait qu’ils ne font toujours pas de SPARQL et que ça craint, mais autant que je sache, SPARQL n’est pas un critère de base pour être dans le linked data ;-).
Evidemment si on s’intéresse, une fois encore, à la qualité des données et de la modélisation, on obtiendra des réponses bien naturelles comme « il vaut mieux des données inexactes que pas de données » ou « cela ne peut que s’améliorer avec le temps ». Que celui qui n’a jamais renoncé à corriger un article dans Wikipedia leur jette la première pierre…

Bref bref : c’est pas demain que n’importe qui pourra faire des ontologies. En sortant de là, je me demandais pourquoi la question (de réussir à associer des « non experts » à la production des ontologies) n’était posée qu’en termes d’outils, et pas d’une façon plus large en termes d’organisation, de ressources humaines, de montée en compétences, etc.
Ca doit être un truc de bibliothécaire, en tout cas je ne suis pas surprise de constater que n’importe qui ne peut pas modéliser des données, même avec un super outil qui fait tout tout seul (même si je pense qu’on pourrait essayer d’aider les gens en les formant).
En tout cas, d’après ce que j’ai pu entendre à plusieurs reprises, que ce soit dans les conférences ou autour d’un repas, la modélisation des données reste un des problèmes majeurs du Web sémantique aujourd’hui.

4 réflexions sur “ISWC 2008 (4) – Simplifier le Semantic Web – un problème d’outils ?

  1. Je suis complètement d’accord avec toi, Christian. Néanmoins, comme le dit James Hendler (« a lightweight ontology allows us to do lightweight reasoning », ISWC 2007) et sans tomber dans la logique de description, il est possible de penser à des inférences assez simples, même via SPARQL, qui rendent déjà des services et qui permettent d’assouvir les chatouillements.

  2. Ahh : pleins de bons billets en ce moment :-)

    Pour la partie ontologie et logique, on ne devrait même pas en parler. je veux dire : cela ne concerne qu’une infime partie de la population qui travaille sur le web sémantique en dehors des universités (informaticiens et utilisateurs).

    RDF et SPARQL vont nous occuper pendant des années..on a le temps de mettre en place des logiques descriptives. Mais le hic c’est que c’est tellement excitant d’imaginer les moteurs d’inférence travailler sur des corpus de données que même moi je pars dessus dès qu’on me chatouille un peu…

    Il faut savoir se retenir et se concentrer sur trois points actuellement :
    – les données en RDF (avec export de bases relationnelles existantes)
    – des endpoints SPARQL
    – des interfaces utilisateurs

    Vivement la suite de tes billets Manue :-)

  3. – Vous prendrez bien une petite inférence ?
    – Non, vraiment je n’ose…
    – mais si, mais si, je vous en prie, vous ne le regretterez pas.
    – Ah bon, vous êtes sûr ? mais en SPARQL alors.
    – Cela va de soi, voyons.

    (traduction : ça vous amuse de venir vous faire des politesses sur mon blog ? vous êtes mignons tous les deux ;-)

Les commentaires sont fermés.