Cet article (pdf) au titre un brin provocateur était arrivé dans mes fils dans le lot nombreux de documents en tous genres sur les métadonnées, et je ne pensais pas m’y attarder plus que ça.
Mais comme il commence par une amusante parabole et que j’adore ça, je me suis laissée prendre par sa lecture, et même intéresser par cette proposition ô combien indécente : et si on faisait un moratoire sur les métadonnées ?
De fait, les idées exposées par l’auteur de cet article ont un côté pragmatique assez séduisant. Le constat est le suivant : le travail élaboré depuis 10 ans sur les métadonnées, notamment avec Dublin Core, MPEG-7 pour les vidéos, et le Web sémantique, est arrivé à un certain plafonnement. On s’aperçoit aujourd’hui (toujours d’après l’auteur de l’article, je précise) que rien ne remplace en performance et en pertinence la recherche plein-texte. Et pourtant, pour ce qui est de la recherche de documents multimédias, on n’a pas vraiment avancé. On sait aujourd’hui que quel que soit le nombre de mots qu’on accolera à une image pour la décrire, il sera impossible d’anticiper tous les usages. Quant aux métadonnées techniques qui sont les seules qu’on extrait automatiquement, elles se révèlent inutiles quand l’objectif est de trouver.
L’auteur propose de valider une bonne fois les acquis puis de cesser de faire des métadonnées, ou plutôt de cesser au moins pour un temps d’aborder la perspective de la recherche d’information à travers la problématique de la description. Il faut trouver d’autres voies.
Ce qui m’a plu dans cet article, c’est la réflexion sur la description de l’image. Quand on s’intéresse de près aux images, on sait très bien qu’aucune description ne peut remplacer notre oeil et notre perception humaine, même hyper-rapide sur un microfilm qui déroule à tout allure, par exemple. Par contre, je suis sceptique quant à la capacité de programmes informatiques à effectuer cette analyse optique à notre place. Il y aurait beaucoup trop de paramètres à entrer, dont certains sont purement intuitifs.
Je reste partisanne, mais je le disais déjà hier, d’outils qui facilitent le « scannage » humain de collections massives d’images : des outils de navigation simples, efficaces, avec des classifications pertinentes plutôt qu’une véritable indexation. Evidemment pour des sons et même des vidéos c’est beaucoup moins évident.
Plusieurs fois j’ai pensé qu’il serait bien de pouvoir soumettre une image à Google pour qu’il en trouve des similaires (ou l’URI d’origine)en se basant sur les données et pas sur les métadonnées.
A part ça je suis impatient de tester la technologie Spotlight de Tiger.
BobbyMasteria: c’est ce sur quoi j’ai travaillé en 1998 (mais qui n’a jamais été publié, à ma connaissance).
Plusieurs sociétés y ont travaillé (IBM, Excalibur Technologies Corporation, …), et on a aujourd’hui Cydral (http://fr.cydral.com/) par exemple.