Vrac sur la description des images

Le problème des documents non textuels (images, multimédia) est une des raisons de s’intéresser de près aux métadonnées. Pas de recherche « plein-texte », puisqu’il n’y a pas de texte ; il faut trouver un moyen de décrire.

Si on s’intéresse un peu aux schémas de métadonnées qui permettent de décrire des oeuvres (donc essentiellement des objets graphiques mais plutôt statiques, pas multimédia), on tombe sur CDWA, une norme du Getty, et son schéma XML CDWA Lite prévu pour être utilisé par exemple avec l’OAI.
CDWA prend aussi en compte le VRAcore, avec ses règles de catalogage ou CCO, où on retrouve l’idée de décrire des oeuvres et des images d’oeuvres.
Enfin le CRM est un peu à part, car il ne contente pas de dire comment décrire, il donne toute la modélisation nécéssaire sous forme d’une ontologie. J’en ai déjà parlé.

Côté multimédia, on a plutôt travaillé sur des standards de description automatisée des images, comme la norme MPEG-7. L’idée est de ne pas se contenter de décrire l’oeuvre mais de rentrer dans le contenu, comme on le ferait pour le texte. Sauf que les repères, au lieu d’être des mots, sont des entités temporelles, des formes, des prises de vue, etc.

Côté Web sémantique on n’est pas en reste sur cette idée de rentrer dans les images. Il existe par exemple une ontologie en OWL et RDF pour décrire une région d’une image. Il existe aussi une spec du W3C pour décrire et retrouver des photos avec RDF et HTTP. Et des outils pour encapsuler une description en RDF dans une image.

Pour ces trois derniers liens merci à mon geek, et à catalogablog principalement pour le reste.

Autorités

J’ai découvert via la blog OCLCien de Thom Hickey, un service d’interrogation à distance des autorités noms de personnes de la Library of Congress. Il a une petite interface ici. L’intérêt c’est surtout qu’il est développé sous la forme d’un Web service en SOAP, donc il peut être réutilisé par d’autres applications comme Dspace ou ePrints. On peut voir le fichier WSDL de description du service ici. Il y aussi un autre billet sur Outgoing qui évoque des ressources connexes sur ce sujet.

Dewey vs. le reste du monde

Intéressante question chez Librarian in black : qu’est-ce qui est le plus pratique pour organiser des signets, la Dewey ou une classification maison type LII ?

La réponse en visitant ce site qui organise des liens suivant la Dewey. On se rend compte que c’est très pratique quand on est déjà conditionné à chercher des documents sur le même sujet en bibliothèque. Par contre ce n’est pas forcément pertinent pour trouver des ressources récentes ou sur des sujets récents.

Moralité : la Dewey est datée mais toujours très utile parce qu’elle est répandue. Jusqu’à un certain point.

Le Tour de France et les figues

Couvrir l’actualité de la figue peut parfois être une tâche harassante, dans laquelle il ne faut rien laisser au hasard. Ainsi, ce midi, dans le journal de France3, on a pu voir de quoi se compose le repas des cyclistes du tour de France : omelette, jambon, nutella et… confiture de figues. Eh eh, pas fous, les sportifs !

Pour prouver que je dis vrai, je suis allée rechercher la séquence dans le journal en ligne, et pour y arriver, j’ai dû installer plein de choses affreuses dans mon PC et utiliser un navigateur obsolète. Voir la télé sur le Web, ce n’est pas donné à tout le monde.

Quand même on a droit à de grands moments de mise en abîme, quand on regarde sur le Web la télé qui montre le Web (qui parle de la télé ? non pas cette fois mais ça aurait pu).

Donc grâce à cette épreuve initiatique, mon info est validée comme venant de France 3. Ceci dit, on voyait juste des types à table qui mangeaient de la confiture de figues, et même si le journaliste en voix off parlait du tour de France, rien ne prouve qu’il y avait un rapport. Finalement.

Le luxe

La confiture de figues, c’est peut-être déjà du luxe mais celle-ci est un peu particulière. Parce que c’est du Fauchon, qu’elle est faite avec des figues de Solliès… Mais ce n’est pas parce qu’elle est chère qu’elle est bonne, elle est juste bonne, excellente. Probablement une des meilleures que j’ai jamais mangées (même en incluant les miennes, c’est vous dire).

D’habitude les confitures de figues qu’on achète dans le commerce sont insipides, homogènes, souvent le goût du sucre cache celui du fruit. Ou alors on sait que c’est des figues juste parce qu’il y a des petits grains qui croquent sous la dent. Ici rien de tout cela, elle est fine, au goût subtil, avec des vrais morceaux de fruits.

A manger par exemple en couche fine sur du pain blanc, avec du fromage de chèvre ou de brebis. En vente dans votre Monoprix.

Guide EAD

Le manuel d’encodage en EAD (pdf), proposé par le groupe de travail correspondant de l’AFNOR, est en ligne sur cette page de la direction des Archives de France.

Est-il besoin de le rappeler, l’EAD n’est pas seulement un format de description d’archives mais permet d’encoder toutes sortes d’inventaires, surtout quand il s’agit de fonds organisés de manière hiérarchique. C’est souvent le cas des fonds de manuscrits ou d’autres fonds privés déposés dans les bibliothèques. C’est d’ailleurs le format adopté pour la numérisation du Catalogue général des manuscrits des bibliothèques françaises.

A ma connaissance, à part sur ce projet, il n’y a pas encore beaucoup de bibliothèques qui l’utilisent en France, la BM de Lyon méritant quand même d’être citée comme précurseur.

Pour un article de référence sur l’EAD, voir aussi Blogokat.

Catalogue is not dead

Le nouveau BBF vient de sortir avec pour titre alléchant : "Mort et transfiguration des catalogues".

Je n’ai pas encore eu le temps de le lire, évidemment, et je ne l’aurai pas non plus ce week-end, hélas. Mais je pense que ce sera un grand moment. Au programme : la visualisation, le XML, les classifications, la recherche fédérée, le renseignement à distance, Google scholar, et même le livre ancien. Je m’en pâme d’avance.

J’en profite pour glisser au passage quelques liens thématiques…

Sur Urfist Info est signalée une initative de Thomson Gale pour offrir l’accès (ou plutôt, la recherche) aux revues qu’on peut lire dans les bibliothèques. Le portail, AccessMyLibrary, vous donne les références de l’article en vous précisant poliment : Read the rest of this article for free courtesy of your local library. Charming.

Kesako nous renvoie quand à lui vers une bibliothèque virtuelle privée, en fait des agrégats de blogs et d’autres ressources classées par thèmes, dont l’organisateur n’est autre que Marcus Zillman en personne. Je vois pas trop le rapport avec le sujet, ceci dit. Est-ce qu’en collant tout plein de blogs ensemble et en les classant par thèmes, on génère une bibliothèque (même privée) ? Le doute m’étreint.

Chez Karl on découvre un programme qui permet de gérer sa bibliothèque personnelle, lecteur de codes à barres intégré dans la webcam. C’est délire mais ça ne vaut pas une bonne classification Dewey dans son salon (en plus il faut être sous Mac).

Enfin du côté de chez Catalogablog on découvre CAT-OAI, un opac basé entièrement sur un entrepôt OAI. En fait le but est d’intégrer des entrepôts OAI dans un opac. A regarder de plus près.

Je vous souhaite un bon week-end, occupez-vous bien, lisez le BBF, cataloguez votre bibliothèque personnelle, intégrez-y des notices en OAI et des blogs, classez-la en Dewey, et je vous retrouve lundi pour de nouvelles aventures bibliothéconomiques.

Archives numériques intéropérables

RLG vient de publier le compte-rendu d’une rencontre intitulée : 2005 RLG International Archival Gateways Meeting. Cette rencontre qui avait lieu aux archives nationales de Grande Bretagne avait pour objectif d’aborder la question de l’intéropérabilité de la numérisation des archives sur le plan international. On notera qu’il y a une présentation de la Direction des archives de France.

J’en profite pour signaler que sur le portail France-Généalogie on peut consulter l’outil Nomina, un service qui interroge 4 bases réparties en utilisant l’OAI.

Petite histoire des classifications

Pour être plus précise, je m’intéresse à trois classifications en particulier : la Dewey, la CDU et la Classification Colon.

En 1876, Melvil Dewey propose la première version de sa classification connue sous le nom de classification décimale de Dewey (CDD ou en anglais DDC). Tout le monde la connaît donc je ne reviendrai pas sur ses principes. Révisée 22 fois, elle est encore très largement utilisée aujourd’hui. Pourquoi ? Essentiellement parce qu’elle est pratique, le cheval de bataille de Melvil étant la simplicité (pour la petite histoire, il s’intéressait aussi à la simplification de l’orthographe – un précurseur du langage SMS…) et son but, donner un moyen de ranger les livres. La Dewey est aujourd’hui jalousement administrée par l’OCLC.
La Dewey est une classification hiérarchique, ce qui n’est pas révolutionnaire même à l’époque ; ce qui est nouveau c’est la notation c’est à dire le fait d’utiliser des décimales pour représenter les différentes classes et sous-classes. Si on augmente le nombre de chiffres, on avance dans la précision de l’indexation. Néanmoins, une utilisation logique dans un but de rangement voudrait qu’on applique la Dewey de manière simple (ce qui n’est pas toujours possible, en fait).

En 1905, les belges Paul Otlet et Henri Lafontaine proposent une première version d’une classification adaptée à partir de celle de Dewey, qu’ils ont conçue dans un objectif modeste : faire un catalogue sur fiches de tous les ouvrages publiés depuis l’invention de l’imprimerie, y compris les articles, la littérature grise et les brevets. Une utopie qui a de beaux jours devant elle, puisqu’on la retrouve aujourd’hui dans les portails documentaires et chez certains moteurs de recherche qui se targuent d’organiser l’information du monde. Le Manuel du répertoire bibliographique universel qui résulte de leur projet est donc, à l’origine, assez proche de la Dewey.
C’est dans sa deuxième édition, entre 1927 et 1933, que cette classification prend le nom de Classification décimale Universelle ou CDU (toujours autant de modestie). Et qu’elle marque sa différence en utilisant, à la place des enchaînements numériques simples de la Dewey, deux nouveaux types de combinaison des éléments : l’extension (barre oblique) et la relation (deux points). L’extension signifie qu’on comprend toutes les notions comprises entre les deux éléments séparés par la barre oblique. Le signe de relation au contraire introduit un rapport entre les deux notions qu’il sépare.
On aboutit à un système complexe qui permet de mieux décrire le contenu des documents, surtout dans un contexte de bibliothèque spécialisée où l’on a la possibilité d’utiliser des classes spécifiques et très détaillées, décrites séparément.

C’est en 1924 qu’un bibliothécaire indien, Ranganathan, qui était aussi mathématicien, essaye de dépasser cette notion de classification décimale hiérarchique en proposant un nouveau concept : les classifications à facettes.
Pour faire très court, on a des facettes principales qui correspondent à des concepts de base. Pour décrire un document, le concept choisi est ensuite décliné en 5 facettes :

  • la Personnalité : l’objet principal du document
  • l’Energie : l’opération subie par l’objet (on pourrait parler d’action)
  • la Matière : une substance ou une propriété
  • l’eSpace : couverture géographique
  • le Temps : la période chronologique.

L’enchaînement de ces facettes est dit : PMEST. On a ainsi des grands concepts (l’Agriculture, la Médecine) qui se déclinent chacun en listes prédéterminées d’objets, d’actions, et de propriétés. L’espace et le temps sont communs à tous les concepts. De nouveaux concepts peuvent être ajoutés, ce qui limite l’obsolescence de la classification.
Le faît d’enchaîner les propriétés toujours dans le même ordre permet d’aboutir à une notation homogène qu’on va utiliser pour ranger les livres. La notation utilise en outre des lettres, des chiffres, des caractères grecs et différents signes de ponctuation, qui lui donnent son nom de Classification Colon.

Que peut-on retenir de ce rapide résumé ?
Tout d’abord, on observe que toute classification se constitue d’une organisation de la connaissance, et d’une notation de cette organisation. Pour rapprocher cela de notre jargon actuel, on a un modèle, et un format pour représenter le modèle.
Plus le modèle est simple, plus il est efficace pour remplir son but premier : la "mise en espace", ranger des livres. Dans un but pratique (le libre accès) on va donc privilégier un modèle médiocre avec une notation simple à un modèle performant avec une notation complexe. La tendance à utiliser les classifications et leurs notations pour décrire précisément et complètement le contenu d’un livre ont cependant conduit, surtout en Europe, à adopter les notations plus complexes en sacrifiant parfois le côté pratique et la mise en espace.
La classification à facettes de Ranganathan invente un concept original avec le système des facettes : des facettes principales pour se placer dans le contexte d’un concept, puis les facettes PMEST pour détailler ce concept. Mais c’est l’obligation d’avoir une notation fixe, pour permettre la mise en espace, qui bloque Ranganathan au final dans un modèle et une notation tout aussi complexes que la CDU, et même pires.
Plus tard, d’autres outils deviennent disponibles pour l’indexation du sujet des documents : les thésaurus. Ceux-ci sont hiérarchiques, comme les classifications décimales, mais leur seul but est l’indexation et ils se débarrassent de la contrainte de la mise en espace.

J’espère déduire de tout ça quelques idées intéressantes sur les ontologies, les taxonomies et les classifications à facettes.

Pour une fois, j’ai pris mes sources dans des vrais livres en papier : la 21e édition abbrégée de la Dewey en français par Annie Bethery (la 22e vient de sortir, mais je ne l’avais pas sous la main), la 6e édition de la CDU, et cet article un peu daté mais intéressant.

Anet

Profitant du temps encore relativement ensoleillé de ce côté de Paris, et pas trop étouffant, nous avons passé le week-end à la campagne et fait un petit saut au château d’Anet.

On peut y voir quelques beaux restes de bâtiments du 16e siècle, quelques uns beaucoup moins beaux du siècle suivant, des objets et des meubles ayant appartenu à Diane, des portraits du beau Henri II, le tout en subissant un guide forcé à la voix forte et sans aucune qualité d’invention.

Pourtant il y a de quoi faire, l’histoire de ce château c’est quand même un vrai conte de fées romantique à souhait. Tandis que j’expliquais à ma Puce l’histoire merveilleuse de la princesse Diane et de son amoureux de roi, les lunes, les cerfs et tout, on découvre dans les anciennes douves un peu de gazon et deux grands figuiers (oui cet espèce de gros buisson sauvage, sur la photo).

Vraiment joli, ce château d’Anet.