Le problème des documents non textuels (images, multimédia) est une des raisons de s’intéresser de près aux métadonnées. Pas de recherche « plein-texte », puisqu’il n’y a pas de texte ; il faut trouver un moyen de décrire.
Si on s’intéresse un peu aux schémas de métadonnées qui permettent de décrire des oeuvres (donc essentiellement des objets graphiques mais plutôt statiques, pas multimédia), on tombe sur CDWA, une norme du Getty, et son schéma XML CDWA Lite prévu pour être utilisé par exemple avec l’OAI.
CDWA prend aussi en compte le VRAcore, avec ses règles de catalogage ou CCO, où on retrouve l’idée de décrire des oeuvres et des images d’oeuvres.
Enfin le CRM est un peu à part, car il ne contente pas de dire comment décrire, il donne toute la modélisation nécéssaire sous forme d’une ontologie. J’en ai déjà parlé.
Côté multimédia, on a plutôt travaillé sur des standards de description automatisée des images, comme la norme MPEG-7. L’idée est de ne pas se contenter de décrire l’oeuvre mais de rentrer dans le contenu, comme on le ferait pour le texte. Sauf que les repères, au lieu d’être des mots, sont des entités temporelles, des formes, des prises de vue, etc.
Côté Web sémantique on n’est pas en reste sur cette idée de rentrer dans les images. Il existe par exemple une ontologie en OWL et RDF pour décrire une région d’une image. Il existe aussi une spec du W3C pour décrire et retrouver des photos avec RDF et HTTP. Et des outils pour encapsuler une description en RDF dans une image.
Pour ces trois derniers liens merci à mon geek, et à catalogablog principalement pour le reste.