Catalogue is not dead

Le nouveau BBF vient de sortir avec pour titre alléchant : "Mort et transfiguration des catalogues".

Je n’ai pas encore eu le temps de le lire, évidemment, et je ne l’aurai pas non plus ce week-end, hélas. Mais je pense que ce sera un grand moment. Au programme : la visualisation, le XML, les classifications, la recherche fédérée, le renseignement à distance, Google scholar, et même le livre ancien. Je m’en pâme d’avance.

J’en profite pour glisser au passage quelques liens thématiques…

Sur Urfist Info est signalée une initative de Thomson Gale pour offrir l’accès (ou plutôt, la recherche) aux revues qu’on peut lire dans les bibliothèques. Le portail, AccessMyLibrary, vous donne les références de l’article en vous précisant poliment : Read the rest of this article for free courtesy of your local library. Charming.

Kesako nous renvoie quand à lui vers une bibliothèque virtuelle privée, en fait des agrégats de blogs et d’autres ressources classées par thèmes, dont l’organisateur n’est autre que Marcus Zillman en personne. Je vois pas trop le rapport avec le sujet, ceci dit. Est-ce qu’en collant tout plein de blogs ensemble et en les classant par thèmes, on génère une bibliothèque (même privée) ? Le doute m’étreint.

Chez Karl on découvre un programme qui permet de gérer sa bibliothèque personnelle, lecteur de codes à barres intégré dans la webcam. C’est délire mais ça ne vaut pas une bonne classification Dewey dans son salon (en plus il faut être sous Mac).

Enfin du côté de chez Catalogablog on découvre CAT-OAI, un opac basé entièrement sur un entrepôt OAI. En fait le but est d’intégrer des entrepôts OAI dans un opac. A regarder de plus près.

Je vous souhaite un bon week-end, occupez-vous bien, lisez le BBF, cataloguez votre bibliothèque personnelle, intégrez-y des notices en OAI et des blogs, classez-la en Dewey, et je vous retrouve lundi pour de nouvelles aventures bibliothéconomiques.

Archives numériques intéropérables

RLG vient de publier le compte-rendu d’une rencontre intitulée : 2005 RLG International Archival Gateways Meeting. Cette rencontre qui avait lieu aux archives nationales de Grande Bretagne avait pour objectif d’aborder la question de l’intéropérabilité de la numérisation des archives sur le plan international. On notera qu’il y a une présentation de la Direction des archives de France.

J’en profite pour signaler que sur le portail France-Généalogie on peut consulter l’outil Nomina, un service qui interroge 4 bases réparties en utilisant l’OAI.

Petite histoire des classifications

Pour être plus précise, je m’intéresse à trois classifications en particulier : la Dewey, la CDU et la Classification Colon.

En 1876, Melvil Dewey propose la première version de sa classification connue sous le nom de classification décimale de Dewey (CDD ou en anglais DDC). Tout le monde la connaît donc je ne reviendrai pas sur ses principes. Révisée 22 fois, elle est encore très largement utilisée aujourd’hui. Pourquoi ? Essentiellement parce qu’elle est pratique, le cheval de bataille de Melvil étant la simplicité (pour la petite histoire, il s’intéressait aussi à la simplification de l’orthographe – un précurseur du langage SMS…) et son but, donner un moyen de ranger les livres. La Dewey est aujourd’hui jalousement administrée par l’OCLC.
La Dewey est une classification hiérarchique, ce qui n’est pas révolutionnaire même à l’époque ; ce qui est nouveau c’est la notation c’est à dire le fait d’utiliser des décimales pour représenter les différentes classes et sous-classes. Si on augmente le nombre de chiffres, on avance dans la précision de l’indexation. Néanmoins, une utilisation logique dans un but de rangement voudrait qu’on applique la Dewey de manière simple (ce qui n’est pas toujours possible, en fait).

En 1905, les belges Paul Otlet et Henri Lafontaine proposent une première version d’une classification adaptée à partir de celle de Dewey, qu’ils ont conçue dans un objectif modeste : faire un catalogue sur fiches de tous les ouvrages publiés depuis l’invention de l’imprimerie, y compris les articles, la littérature grise et les brevets. Une utopie qui a de beaux jours devant elle, puisqu’on la retrouve aujourd’hui dans les portails documentaires et chez certains moteurs de recherche qui se targuent d’organiser l’information du monde. Le Manuel du répertoire bibliographique universel qui résulte de leur projet est donc, à l’origine, assez proche de la Dewey.
C’est dans sa deuxième édition, entre 1927 et 1933, que cette classification prend le nom de Classification décimale Universelle ou CDU (toujours autant de modestie). Et qu’elle marque sa différence en utilisant, à la place des enchaînements numériques simples de la Dewey, deux nouveaux types de combinaison des éléments : l’extension (barre oblique) et la relation (deux points). L’extension signifie qu’on comprend toutes les notions comprises entre les deux éléments séparés par la barre oblique. Le signe de relation au contraire introduit un rapport entre les deux notions qu’il sépare.
On aboutit à un système complexe qui permet de mieux décrire le contenu des documents, surtout dans un contexte de bibliothèque spécialisée où l’on a la possibilité d’utiliser des classes spécifiques et très détaillées, décrites séparément.

C’est en 1924 qu’un bibliothécaire indien, Ranganathan, qui était aussi mathématicien, essaye de dépasser cette notion de classification décimale hiérarchique en proposant un nouveau concept : les classifications à facettes.
Pour faire très court, on a des facettes principales qui correspondent à des concepts de base. Pour décrire un document, le concept choisi est ensuite décliné en 5 facettes :

  • la Personnalité : l’objet principal du document
  • l’Energie : l’opération subie par l’objet (on pourrait parler d’action)
  • la Matière : une substance ou une propriété
  • l’eSpace : couverture géographique
  • le Temps : la période chronologique.

L’enchaînement de ces facettes est dit : PMEST. On a ainsi des grands concepts (l’Agriculture, la Médecine) qui se déclinent chacun en listes prédéterminées d’objets, d’actions, et de propriétés. L’espace et le temps sont communs à tous les concepts. De nouveaux concepts peuvent être ajoutés, ce qui limite l’obsolescence de la classification.
Le faît d’enchaîner les propriétés toujours dans le même ordre permet d’aboutir à une notation homogène qu’on va utiliser pour ranger les livres. La notation utilise en outre des lettres, des chiffres, des caractères grecs et différents signes de ponctuation, qui lui donnent son nom de Classification Colon.

Que peut-on retenir de ce rapide résumé ?
Tout d’abord, on observe que toute classification se constitue d’une organisation de la connaissance, et d’une notation de cette organisation. Pour rapprocher cela de notre jargon actuel, on a un modèle, et un format pour représenter le modèle.
Plus le modèle est simple, plus il est efficace pour remplir son but premier : la "mise en espace", ranger des livres. Dans un but pratique (le libre accès) on va donc privilégier un modèle médiocre avec une notation simple à un modèle performant avec une notation complexe. La tendance à utiliser les classifications et leurs notations pour décrire précisément et complètement le contenu d’un livre ont cependant conduit, surtout en Europe, à adopter les notations plus complexes en sacrifiant parfois le côté pratique et la mise en espace.
La classification à facettes de Ranganathan invente un concept original avec le système des facettes : des facettes principales pour se placer dans le contexte d’un concept, puis les facettes PMEST pour détailler ce concept. Mais c’est l’obligation d’avoir une notation fixe, pour permettre la mise en espace, qui bloque Ranganathan au final dans un modèle et une notation tout aussi complexes que la CDU, et même pires.
Plus tard, d’autres outils deviennent disponibles pour l’indexation du sujet des documents : les thésaurus. Ceux-ci sont hiérarchiques, comme les classifications décimales, mais leur seul but est l’indexation et ils se débarrassent de la contrainte de la mise en espace.

J’espère déduire de tout ça quelques idées intéressantes sur les ontologies, les taxonomies et les classifications à facettes.

Pour une fois, j’ai pris mes sources dans des vrais livres en papier : la 21e édition abbrégée de la Dewey en français par Annie Bethery (la 22e vient de sortir, mais je ne l’avais pas sous la main), la 6e édition de la CDU, et cet article un peu daté mais intéressant.

Anet

Profitant du temps encore relativement ensoleillé de ce côté de Paris, et pas trop étouffant, nous avons passé le week-end à la campagne et fait un petit saut au château d’Anet.

On peut y voir quelques beaux restes de bâtiments du 16e siècle, quelques uns beaucoup moins beaux du siècle suivant, des objets et des meubles ayant appartenu à Diane, des portraits du beau Henri II, le tout en subissant un guide forcé à la voix forte et sans aucune qualité d’invention.

Pourtant il y a de quoi faire, l’histoire de ce château c’est quand même un vrai conte de fées romantique à souhait. Tandis que j’expliquais à ma Puce l’histoire merveilleuse de la princesse Diane et de son amoureux de roi, les lunes, les cerfs et tout, on découvre dans les anciennes douves un peu de gazon et deux grands figuiers (oui cet espèce de gros buisson sauvage, sur la photo).

Vraiment joli, ce château d’Anet.

Un peu de lecture

Comme je ne me sens pas très en forme ce soir, je vais vous donner un peu de lecture ailleurs.

Tout d’abord, le dernier numéro de RLG Diginews qui contient notamment un article qur l’archivage sélectif du Web par les australiens et un autre sur The Digital Image Archive of Medieval Music un site où on peut voir de la musique médiévale après avoir envoyé par la poste un formulaire papier. Un numéro technologiquement absolument incroyable.

Ensuite, petite visite au Canada pour lire les papiers d’un congrès nommé IATUL (c’est mignon) ou Information et Innovation. Plein de choses avec "digital" dans le titre mais rien qui ait particulièrement retenu mon attention.

Et maintenant le OCLC Tour avec trois nouveaux projets de recherche qui ont été annoncés:

Et aussi dans OCLC, un rapport sur le dernier Workshop FRBR.

Bonne lecture et à demain pour la suite de l’aventure des facettes, si j’ai le courage.

Y a-t-il un juriste dans la salle ?

Le projet Google Print Libraries n’est pas sans inspirer une certaine méfiance et on avait tendance à se dire "il faudrait voir les termes du contrat". Ce jour est arrivé : Librarian.net nous indique que l’Université du Michigan a mis en ligne une copie dudit fameux contrat. Je vous aurais bien mis quelques morceaux choisis, mais c’est du PDF image donc je vais me contenter de résumer.

D’abord, on y apprend que la copie qui sera livrée à la bibliothèque concerne les images, le produit de l’OCR, les références bibliographiques et l’ordre de défilement des images. Donc suffisamment de métadonnées pour les réutiliser, c’est une bonne nouvelle.

Moins drôle :

  • La bibliothèque doit interdire et empêcher techniquement les usages commerciaux et les téléchargements massifs des copies numérisées.
  • Si Google n’utilise pas dans les 3 ans le contenu qu’il a numérisé, la bibliothèque doit détruire sa propre copie.
  • La bibliothèque peut utiliser sa copie sur son site Web mais s’engage à interdire le passage des moteurs de recherche (avec un robot.txt).
  • Google s’engage à ce que les textes soient toujours cherchables gratuitement et les listes de résultats accessibles gratuitement. Rien d’autre.
  • La bibliothèque peut donner accès à sa copie pour les gens qui en ont besoin (persons having a need to access such material) mais pas à tout le monde (public at large).
  • La bibliothèque a le droit de passer des accords de partage de ces documents avec d’autres institutions, la DLF par exemple, mais elle doit associer Google comme "third party beneficiary" de cet accord.

Tout ceci me paraît très restrictif pour des ouvrages du domaine public. Si quelqu’un qui s’y connaît en contrats a envie d’y jeter un oeil… Mais vite, parce que je ne sais pas s’il va rester en ligne très longtemps.

Collection printemps-été 2005

Je sais pas vous, mais moi je commençais à en avoir vraiment ras-le-bol de mon design seventies et j’avais grande envie de changer. Aussitôt dit, aussitôt fait (euh presque) !

Donc voici le Figoblog nouveau, j’espère qu’il vous plaira. Le graphisme est de moi-même, la feuille de style CSS a été réalisée avec art et rapidité par mon geek (merciiiiiiii !) qui est en train de l’optimiser pour Internet Explorer (derniers réglages en cours).

Une petite nouvelle fonctionnalité à signaler : maintenant les images s’affichent dans les billets sous forme de vignette, et il faut cliquer sur la vignette pour voir l’image en plus grand. A part ça, c’est tout comme avant ;-)

Voitures et identifiants pérennes

Je me disais il y a peu que si on considère les différents systèmes de nommage unique et pérenne que l’on fréquente dans la vraie vie (lire : pas sur le Web), un des plus impressionnants est l’immatriculation des voitures.

Actif depuis plus de cinquante ans, ce système a bien des avantages : son extensibilité (passage de deux lettre à trois), sa citabilité (facile à retenir). Pourtant, ce système a vécu et on nous annonce qu’on va en changer. Petite analyse.

Dans l’ancien système, on combinait un élément signifiant (le département) avec un préfixe non signifiant composé de deux ou trois lettres, et une numérotation incrémentale à quatre chiffres. Il y a donc plusieurs autorités nommantes : les préfectures, ce qui a pour conséquence de lier l’identification à un lieu. Si la ressource (pardon, la voiture) change de propriétaire mais pas de lieu, elle garde son identifiant. Si elle change de lieu (même avec le même propriétaire) elle change d’identifiant.
Ces identifiants basés sur les lieux ou les adresses, ça vous rappelle rien ? Les URL par exemple… Qui n’est jamais tombé sur une erreur 404 (cette voiture a déménagé) ou pire, en suivant un lien qu’il avait duement enregistré dans ses favoris, sur un site porno (cette voiture a changé de propriétaire).
Dans le cas d’un changement d’identifiant, seules les métadonnées (les archives de la préfecture) permettent de tracer le changement et de retrouver la ressource-voiture.

Dans le nouveau système, le nommage est composé de trois séries de caractères non signifiants : deux lettres, trois chiffres, deux lettres. Le nommage est incrémental et centralisé : une seule autorité nommante, qui attribue les identifiants dans l’ordre, de AA 11 AA à ZZ 999 ZZ.
L’identifiant reste attaché à la ressource-voiture quel que soit l’emplacement-adresse de celle-ci : ce n’est plus une URL mais une URI.

Le nouveau système vise à la fois à simplifier les démarches administratives des automobilistes (plus de changements de plaques en cas de session des véhicules), à alléger la gestion du système pour l’administration et à lutter contre la délinquance automobile en améliorant l’efficacité des contrôles grâce à une «meilleure traçabilité»

A voir. On passe d’un système semi hiérarchique réparti à un système hypercentralisé et hypercontrôlé (quoi, ça vous surprend ? Qui a eu cette idée d’abord ?). Un seul système, ça veut dire aussi que si le système tombe, on n’a plus rien. Complètement non signifiant, ça veut dire moins citable (Police ! Arrêtez cette voiture !) encore que le limiter à 7 caractères est de ce point de vue une bonne initiative. Par contre quand on sera au bout de cette attribution dans l’ordre, que fera-t-on (si les voitures n’ont pas encore eu définitivement raison de la planète d’ici là) ? Dernière question, comment se fera la transition d’un système à l’autre et la récupération des anciens identifiants ?

Enfin on est bien dans un système centralisé à la française, si on considère que chez nos amis anglais on peut faire immatriculer sa voiture à ses initales si on a envie (le libéralisme, toujours lui). Mais à ma connaissance, à part ça, nous serions le premier pays européen à abandonner le nommage basé sur des lieux ? Non ?

Quand même, un avantage : on ne se fera plus traiter de sales parigots quand on ira en vacances à Marseille !

Ce billet est spécialement dédicacé à Thierry Stoehr

La figue qui fait vendre

J’avais déjà fait remarquer que je trouvais que les figues étaient étrangement à la mode ces derniers temps. Et bien, c’est de pire en pire, maintenant la figue devient un argument publicitaire. Qu’il s’agisse de boire du vin, de partir en vacances, de meubler son jardin, de manger du fromage, des biscuits ou du jambon, on vous le vend avec des figues. Sur les affiches, les emballages, dans les supermarchés, les figues m’appellent de leur succulente douceur. Et en plus, c’est des pubs mensongères car trouver des figues en ce moment ce n’est pas encore très évident…

Corpus oraux

A consulter sur le site du ministère de la Culture, le Guide des bonnes pratiques pour la constitution, l’exploitation, la diffusion et la conservation des corpus oraux encore en version de travail (attention fichier pdf de 123 pages qui a un peu du mal). Il est discuté ici.

Le texte est intéressant, il aborde tous les aspects du sujet, de la constitution des archives orales jusqu’à leur préservation sur le long terme. A noter, une partie fournie sur les questions juridiques de toute sorte, et des indications sur les formats numériques pour l’enregistrement, la conservation et la transcription.

Découvert sur Pluri(TAL).