Le temps n’est rien

Le temps n’est rien est le titre d’un livre que j’ai lu récemment. Non pas que je vous en recommande particulièrement la lecture, à moins que vous ne soyez de fervents adeptes des drames sentimentaux assez déprimants. Mais bon, ce bouquin raconte l’histoire d’un type qui se trouve être bibliothécaire à la Newberry Library de Chicago. Je ne résiste pas à l’envie de vous citer la phrase du livre, lancée par une amie lesbienne à la future épouse du bibliothécaire en question :

Faut que t’en profite un peu avant de te caser avec ton Rat de Bibliothèque. (…) T’auras à peine eu le temps de dire ouf que tu vas te retrouver avec une ribambelle de bibliothécaires modèles réduits qui chieront la classification décimale de Dewey dans leurs Pampers.

Bon c’est pas tous les jours qu’on lit ce genre de référence à la Dewey dans un roman quelconque. Enfin je vous rassure, j’ai bien inspecté le contenu des miennes, de Pampers, et point d’indices ni de cotes (d’ailleurs on s’attendrait plutôt à y trouver des triples ou des métadonnées de préservation, mais non plus !)

Classifications

OCLC a lancé un nouveau service expérimental : Classify. Il permet, à partir d’un identifiant type ISBN ou autre, de savoir comment est statistiquement le plus souvent classée une oeuvre (je parle bien d’une oeuvre, car il y a une étape de FRBRisation). On obtient les résultats en Dewey, en classification de la Library of Congress, et parfois d’autres (comme la classification de la National Library of Medecine).

Je suppose que ces données sont basées sur Worldcat : donc peu de chance de voir surgir un ouvrage classé en OSC… En quoi ??? En Open Shelves Classification, une nouvelle classification collaborative proposée par Library Thing pour … remplacer la Dewey, rien que cela ! (voir Bibliobsession)

L’autre concurrente de la Dewey, la CDU, n’a pas seulement un riche passé, elle a aussi un avenir, l’ensemble étant récapitulé dans cet article.

Et puisque je suis dans les classifications, j’en profite pour signaler deux communications de l’IFLA 2008 qui évoquent la question des alignements de vocabulaires : celle-ci qui porte sur l’utilisation des technologies du Web sémantique pour rapprocher des vocabulaires de descriptions d’enluminures médiévales, et celle-là présente une expérience allemande d’alignement automatique d’une variété de vocabulaires et de thésaurus en sciences sociales.

Merci principalement à catalogablog.

La collection numérique dans l’espace

Un des gros problèmes avec le numérique, c’est l’absence totale de perception spatiale qu’on peut avoir en entrant dans la collection. Or nous autres êtres humains, nous avons besoin de nous représenter notre environnement, et le sens que nous utilisons le plus volontiers pour cela, c’est la  »vue ». Avoir une vue d’ensemble d’une collection numérique, ce n’est pas un gadget, c’est complètement essentiel pour permettre d’appréhender sa nature, son contenu, sa forme et son potentiel. Un formulaire de recherche est un outil pervers qui nous permet de voir l’arbre mais pas la forêt. Il contribue fortement à faire du catalogue un espace sans âme et d’une complexité décourageante.

La première possibilité pour rétablir la perception spatiale de la collection dans un univers numérique est d’utiliser la visualisation ou cartographie d’informations. Mais c’est très compliqué à mettre en place d’un point de vue fonctionnel à cause du manque d’habitude de manipulation de ces outils. Ils perturbent, ils dérangent et finalement quand on creuse un peu on tend à les vider de leur sens (comment on peut avoir cette idée-là et en quelques
séances de travail en arriver ?) Bref c’est pas mûr, et on ne sait même pas si les utilisateurs sont murs eux-mêmes, donc retour à la case départ.

Quand je cherche dans Yahoo et qu’il me répond qu’il y 442 000 figues sur le Web, même s’il m’est humainement et techniquement impossible de parcourir les 442 000 résultats j’ai une idée approximative de l’espace qu’occupent les figues dans le Web.
De façon approchante mais plus bibliothéconomique, on peut utiliser les classifications. Cela revient à montrer le nombre d’étagères de livres qu’il y a derrière une requête : non pas que nous espérions que les lecteurs soient capables de regarder chacun des « dos » qui se présentent à eux, mais cela peut leur permettre d’appréhender la collection. Plus celle-ci grossit, plus on s’approchera d’un phénomène semblable à celui des moteurs de recherche du Web : une indication approximative sur le nombre de livres qui se cachent derrière chaque entrée thématique.
Les classifications à facettes sont intéressantes parce qu’elles permettent de combiner des étagères ensembles pour obtenir un résultat plus petit, donc humainement perceptible. Mais sur de la numérisation de masse, même en combinant, on aura à la fin d’énormes étagères.
Non pas que ce soit un problème à mes yeux. Mais cela perturbe énormément certaines personnes de la profession, qui ne doivent pas être habituées à devoir faire le tri dans de grosses masses d’information.

Dans l’article sur l’arbre et la forêt que je citais au début, on nous propose un troisième outil : le text-mining. Le « clustering », la visualisation de relations sont des outils qui peuvent nous aider à avoir cette « perspective de haut niveau » sur la collection numérique.
Je ne résiste pas à l’envie de citer la partie de l’article qui dit qu’il vaut mieux être accompagné d’un professionnel de l’information pour s’engager sur la route du text-mining :
Information professionals are natural partners for text mining because of their existing skill sets. At the top of the list is their knowledge and experience with the “information highway” and their ability to place information tools in context. Furthermore, they are knowledgeable about available products and information-retrieval techniques. Good information professionals have a blend of analytical and creativity skills, are adept at problem solving, and excel at dealing with ambiguity. Finally, information professionals have developed excellent consultative and listening skills and the ability to adapt and try different approaches to problems.
Ca devrait faire plaisir à mon geek.

A la fin de l’article, il y a un encadré pour les bibliothécaires avec le jargon à prendre en main pour se mettre à niveau en text-mining : chers lecteurs, si vous y voyez des mots nouveaux, c’est que vous pouvez encore creuser pour explorer la mine.

L’âme de fonds

J’ai entendu il y a peu l’assertion suivante : le mauvais chercheur est celui qui sait ce qu’il va trouver. Or, dans le domaine du numérique, il est de plus en plus difficile de chercher au hasard : si on traduit cela en termes bibliothéconomiques, on pourrait se demander s’il faut savoir ce qu’on cherche pour avoir une chance de le trouver.

Dans la vénérable institution où j’ai été formée, on m’a appris à ne jurer que par le dépouillement systématique, et que seuls les cancres rédigent leur bibliographie en interrogeant les catalogues de bibliothèque par sujet. Avec l’expérience, j’ai appris à nuancer largement cette façon de penser, mais je continue de croire que dans certains cas, le dépouillement est la seule approche possible, non seulement dans les archives, mais aussi dans les bibliothèques. Parfois, c’est "l’âme de fonds" qui prime, même s’il ne s’agit pas d’un fonds à proprement parler : la collection, la façon dont elle s’est constituée, et son organisation sont les meilleurs atouts pour trouver les documents.

Les collections de manuscrits, dans les bibliothèques, sont de bons exemples. Les catalogues de manuscrits de la BnF (dont on peut consulter une version numérique ici) présentent une organisation systématique qui reflète l’entrée des documents dans la collection et qui est compliquée à appréhender. Si je vous parle des manuscrits français n° 20065-22884, cela n’est pas très évocateur. Pourtant, le catalogue qui les décrit est essentiel pour l’histoire du livre, car ces volumes contiennent les privilèges de librairie de l’époque moderne. Pour savoir cela, seules trois méthodes sont possibles : soit dépouiller systématiquement les catalogues de manuscrits de la BnF (bon courage !), soit dépouiller les index et les tables de ces catalogues, soit glaner cette information chez un autre historien (tâche qui sera peut-être facilitée désormais grâce au Figoblog et à Google ;-).

Un autre exemple, encore plus parlant, est celui de la recherche d’images. Dans un ouvrage récemment publié par le Getty sous le titre Introduction to Art Image Access (librement accessible en ligne), on peut lire d’intéressantes idées sur la façon dont on créée et on utilise les accès sujet quand on catalogue des images. Suivant la définition de l’historien de l’art Panofsky (Essais d’iconologie : thèmes humanistes dans l’art de la Renaissance, Paris : Gallimard, 1967) il y a trois niveaux possibles de description, qui sont, du plus objectif au plus subjectif :

  • la description : par exemple, une femme avec un bébé dans les bras
  • l’identification : par exemple, une Vierge à l’Enfant
  • l’interprétation : par exemple… ben non justement.

On ne peut pas prévoir toutes les interprétations possibles d’une image, même en faisant un gros effort pour se mettre à la place du chercheur. Ces interprétations sont innombrables, et elles peuvent changer dans le temps.

Alors, comment faire pour que les bons chercheurs n’en viennent pas à se distinguer par leur capacité à imaginer un maximum de mots-clef différents, plutôt que par leur travail ?
Pour moi, la solution se décline en trois :

  • inventer des interfaces pratiques qui permettent de parcourir, de butiner l’ensemble de la collection, ou au moins des ensembles significatifs, de préférence sous forme numérisée, sinon sous forme de descriptions bibliographiques
  • indexer les notices en plein texte (donc s’affranchir de la syntaxe pour la présentation des descripteurs) et s’appuyer sur des thésaurus modélisés pour le Web sous forme d’ontologies avec des relations
  • et enfin, laisser l’interprétation aux chercheurs eux-mêmes en leur donnant la possibilité de rattacher leur propre analyse (subjective) de l’image à celle (objective) que fournit la bibliothèque.

Tout ceci nous permet également de contourner le problème de la masse, qui interdit le plus souvent un catalogage détaillé à la pièce. L’enjeu est de trouver un équilibre entre classification, indexation et participation… et de numériser, bien sûr.

Merci à Ten Thousand Years Blog.

Les tomates ne sont pas juste des fruits

Voici un document qui utilise les fruits et les légumes pour expliquer la différence entre taxonomies, thésaurus, ontologies et ce genre de "choses". L’idée n’est pas mauvaise et on voit bien où l’auteur veut en venir.

J’en profite pour signaler un autre amusant document intitulé Fruit ou compétence ? capacité ou légume ?, dans lequel vous pourrez découvrir qu’un légume peut être un fruit, et qu’un fruit peut être un légume. Et en tout état de cause, une tomate peut être les deux, suivant la façon dont on la considère.

Enfin, sympathique détour par chez les architectes de l’information de Boxes and Arrows, où une petite biographie de Paul Otlet nous permettra de tout savoir sur l’invention de l’annotation collaborative des catalogues sur fiches avant le Web, ainsi que sur la CDU et la bibliothèque universelle.

Merci à Deakialli et à Librarian.net.

On se remet au boulot

Voilà, je suis partie presque 4 semaines, c’est long, et pendant ce temps la bibliothéconomie a continué d’avancer… Je vous propose un petit rattrappage des événements bibliothéconomiques depuis la fin juillet.

17 juillet : OCLC annonce la mise à disposition d’un résolveur OpenURL gratuit. Un mois plus tard, CrossRef en fait autant.

24 juillet : annoncé sur 10kyBlog, est créé un calendrier international des conférences en sciences de l’information – il est pour l’instant complètement vide.

27 juillet : l’IFLA propose un brouillon des FRAR (Functionnal Requirements for Authority Records), l’équivalent des FRBR mais pour les notices d’autorité. A réviser pour le 28 octobre.

29 juillet : OCLC sort le DeweyBrowser, une interface jolie pour parcourir une collection d’e-books classés en Dewey. Un peu gadget mais ya de l’idée.

2 août : sur le FRBR blog , on s’intéresse à l’expression des FRBR en RDF avec deux textes de référence : un pour les core concepts et un autre pour les extended concepts.

3 août : Juriblog annonce dans le nouveau numéro d’Archimag un article sur la blogosphère et son impact dans le monde de la documentation (pas encore lu).

3 août : première publication par le JISC d’un premier bout du Digital Curation Manual, consacré à l’open source.

Août (sans date précise) : plusieurs sources évoquent la création de ColLib, un wiki destiné à organiser l’information en libre accès dans le domaine des sciences de l’info, notamment en permettant l’étiquetage (ou tagging) de notices OAI.

10 août : nos amis de Catalogablog lancent un bookmark partagé qui récapitule les "MARC Tools", outils disponibles pour manipuler le format MARC.

11 août : nos amis de Google annoncent une pause dans le programme Google print, destinée à permettre jusqu’en novembre aux détenteurs de droits de se faire connaître s’ils ne souhaitent pas que leurs ouvrages soient scannés par le "library project". Cette pause est présentée comme une nouvelle fonctionnalité du programme ("new feature"), comme c’est mignon.

17 août : la Library of Congress lance un nouveau site d’étude sur le Copyright, avec pour objectif de faire reconnaître légalement les exceptions propres aux bibliothèques.

Je pense avoir fait à peu près le tour. Mes sources sont les mêmes que d’habitude, excusez la flemme de tout récapituler. La photo vient de la cathédrale d’Auch.

Dewey vs. le reste du monde

Intéressante question chez Librarian in black : qu’est-ce qui est le plus pratique pour organiser des signets, la Dewey ou une classification maison type LII ?

La réponse en visitant ce site qui organise des liens suivant la Dewey. On se rend compte que c’est très pratique quand on est déjà conditionné à chercher des documents sur le même sujet en bibliothèque. Par contre ce n’est pas forcément pertinent pour trouver des ressources récentes ou sur des sujets récents.

Moralité : la Dewey est datée mais toujours très utile parce qu’elle est répandue. Jusqu’à un certain point.

Catalogue is not dead

Le nouveau BBF vient de sortir avec pour titre alléchant : "Mort et transfiguration des catalogues".

Je n’ai pas encore eu le temps de le lire, évidemment, et je ne l’aurai pas non plus ce week-end, hélas. Mais je pense que ce sera un grand moment. Au programme : la visualisation, le XML, les classifications, la recherche fédérée, le renseignement à distance, Google scholar, et même le livre ancien. Je m’en pâme d’avance.

J’en profite pour glisser au passage quelques liens thématiques…

Sur Urfist Info est signalée une initative de Thomson Gale pour offrir l’accès (ou plutôt, la recherche) aux revues qu’on peut lire dans les bibliothèques. Le portail, AccessMyLibrary, vous donne les références de l’article en vous précisant poliment : Read the rest of this article for free courtesy of your local library. Charming.

Kesako nous renvoie quand à lui vers une bibliothèque virtuelle privée, en fait des agrégats de blogs et d’autres ressources classées par thèmes, dont l’organisateur n’est autre que Marcus Zillman en personne. Je vois pas trop le rapport avec le sujet, ceci dit. Est-ce qu’en collant tout plein de blogs ensemble et en les classant par thèmes, on génère une bibliothèque (même privée) ? Le doute m’étreint.

Chez Karl on découvre un programme qui permet de gérer sa bibliothèque personnelle, lecteur de codes à barres intégré dans la webcam. C’est délire mais ça ne vaut pas une bonne classification Dewey dans son salon (en plus il faut être sous Mac).

Enfin du côté de chez Catalogablog on découvre CAT-OAI, un opac basé entièrement sur un entrepôt OAI. En fait le but est d’intégrer des entrepôts OAI dans un opac. A regarder de plus près.

Je vous souhaite un bon week-end, occupez-vous bien, lisez le BBF, cataloguez votre bibliothèque personnelle, intégrez-y des notices en OAI et des blogs, classez-la en Dewey, et je vous retrouve lundi pour de nouvelles aventures bibliothéconomiques.

Petite histoire des classifications

Pour être plus précise, je m’intéresse à trois classifications en particulier : la Dewey, la CDU et la Classification Colon.

En 1876, Melvil Dewey propose la première version de sa classification connue sous le nom de classification décimale de Dewey (CDD ou en anglais DDC). Tout le monde la connaît donc je ne reviendrai pas sur ses principes. Révisée 22 fois, elle est encore très largement utilisée aujourd’hui. Pourquoi ? Essentiellement parce qu’elle est pratique, le cheval de bataille de Melvil étant la simplicité (pour la petite histoire, il s’intéressait aussi à la simplification de l’orthographe – un précurseur du langage SMS…) et son but, donner un moyen de ranger les livres. La Dewey est aujourd’hui jalousement administrée par l’OCLC.
La Dewey est une classification hiérarchique, ce qui n’est pas révolutionnaire même à l’époque ; ce qui est nouveau c’est la notation c’est à dire le fait d’utiliser des décimales pour représenter les différentes classes et sous-classes. Si on augmente le nombre de chiffres, on avance dans la précision de l’indexation. Néanmoins, une utilisation logique dans un but de rangement voudrait qu’on applique la Dewey de manière simple (ce qui n’est pas toujours possible, en fait).

En 1905, les belges Paul Otlet et Henri Lafontaine proposent une première version d’une classification adaptée à partir de celle de Dewey, qu’ils ont conçue dans un objectif modeste : faire un catalogue sur fiches de tous les ouvrages publiés depuis l’invention de l’imprimerie, y compris les articles, la littérature grise et les brevets. Une utopie qui a de beaux jours devant elle, puisqu’on la retrouve aujourd’hui dans les portails documentaires et chez certains moteurs de recherche qui se targuent d’organiser l’information du monde. Le Manuel du répertoire bibliographique universel qui résulte de leur projet est donc, à l’origine, assez proche de la Dewey.
C’est dans sa deuxième édition, entre 1927 et 1933, que cette classification prend le nom de Classification décimale Universelle ou CDU (toujours autant de modestie). Et qu’elle marque sa différence en utilisant, à la place des enchaînements numériques simples de la Dewey, deux nouveaux types de combinaison des éléments : l’extension (barre oblique) et la relation (deux points). L’extension signifie qu’on comprend toutes les notions comprises entre les deux éléments séparés par la barre oblique. Le signe de relation au contraire introduit un rapport entre les deux notions qu’il sépare.
On aboutit à un système complexe qui permet de mieux décrire le contenu des documents, surtout dans un contexte de bibliothèque spécialisée où l’on a la possibilité d’utiliser des classes spécifiques et très détaillées, décrites séparément.

C’est en 1924 qu’un bibliothécaire indien, Ranganathan, qui était aussi mathématicien, essaye de dépasser cette notion de classification décimale hiérarchique en proposant un nouveau concept : les classifications à facettes.
Pour faire très court, on a des facettes principales qui correspondent à des concepts de base. Pour décrire un document, le concept choisi est ensuite décliné en 5 facettes :

  • la Personnalité : l’objet principal du document
  • l’Energie : l’opération subie par l’objet (on pourrait parler d’action)
  • la Matière : une substance ou une propriété
  • l’eSpace : couverture géographique
  • le Temps : la période chronologique.

L’enchaînement de ces facettes est dit : PMEST. On a ainsi des grands concepts (l’Agriculture, la Médecine) qui se déclinent chacun en listes prédéterminées d’objets, d’actions, et de propriétés. L’espace et le temps sont communs à tous les concepts. De nouveaux concepts peuvent être ajoutés, ce qui limite l’obsolescence de la classification.
Le faît d’enchaîner les propriétés toujours dans le même ordre permet d’aboutir à une notation homogène qu’on va utiliser pour ranger les livres. La notation utilise en outre des lettres, des chiffres, des caractères grecs et différents signes de ponctuation, qui lui donnent son nom de Classification Colon.

Que peut-on retenir de ce rapide résumé ?
Tout d’abord, on observe que toute classification se constitue d’une organisation de la connaissance, et d’une notation de cette organisation. Pour rapprocher cela de notre jargon actuel, on a un modèle, et un format pour représenter le modèle.
Plus le modèle est simple, plus il est efficace pour remplir son but premier : la "mise en espace", ranger des livres. Dans un but pratique (le libre accès) on va donc privilégier un modèle médiocre avec une notation simple à un modèle performant avec une notation complexe. La tendance à utiliser les classifications et leurs notations pour décrire précisément et complètement le contenu d’un livre ont cependant conduit, surtout en Europe, à adopter les notations plus complexes en sacrifiant parfois le côté pratique et la mise en espace.
La classification à facettes de Ranganathan invente un concept original avec le système des facettes : des facettes principales pour se placer dans le contexte d’un concept, puis les facettes PMEST pour détailler ce concept. Mais c’est l’obligation d’avoir une notation fixe, pour permettre la mise en espace, qui bloque Ranganathan au final dans un modèle et une notation tout aussi complexes que la CDU, et même pires.
Plus tard, d’autres outils deviennent disponibles pour l’indexation du sujet des documents : les thésaurus. Ceux-ci sont hiérarchiques, comme les classifications décimales, mais leur seul but est l’indexation et ils se débarrassent de la contrainte de la mise en espace.

J’espère déduire de tout ça quelques idées intéressantes sur les ontologies, les taxonomies et les classifications à facettes.

Pour une fois, j’ai pris mes sources dans des vrais livres en papier : la 21e édition abbrégée de la Dewey en français par Annie Bethery (la 22e vient de sortir, mais je ne l’avais pas sous la main), la 6e édition de la CDU, et cet article un peu daté mais intéressant.

Figues et facettes

En lisant chez Outils froids ce billet sur la navigation multi-facettes, je me suis souvenue que j’avais deux trois petites choses en réserve sur ce sujet :

Qu’est-ce qu’une interface à facettes ? en fait, c’est simplement un moyen de naviguer dans une collection d’objets en rafinant de plus en plus sa requête ou en croisant des critères.

On peut en avoir une bonne idée sur le site Epicurious où il est question de recettes de cuisine. On part d’une liste d’aliments, de types de plats, d’occasions, de méthodes de préparation, etc. On choisit un critère, et ensuite on précise sa requête en fonction des choix disponibles – l’avantage étant sans aucun doute d’avoir à chaque étape une vue globale des choix effectivement disponibles.

Alors, est-ce vraiment utile ? Eh bien, si on cherche un plat pour les enfants qui se fait en automne au four avec du chocolat, c’est une méthode intéressante. Par contre, si on cherche n’importe quoi avec des figues dedans, l’utilisation du moteur de recherche reste indéniablement plus efficace.

Et quand même, 129 recettes avec des figues, ça mérite aussi d’être noté.