Catalogue is not dead

Le nouveau BBF vient de sortir avec pour titre alléchant : "Mort et transfiguration des catalogues".

Je n’ai pas encore eu le temps de le lire, évidemment, et je ne l’aurai pas non plus ce week-end, hélas. Mais je pense que ce sera un grand moment. Au programme : la visualisation, le XML, les classifications, la recherche fédérée, le renseignement à distance, Google scholar, et même le livre ancien. Je m’en pâme d’avance.

J’en profite pour glisser au passage quelques liens thématiques…

Sur Urfist Info est signalée une initative de Thomson Gale pour offrir l’accès (ou plutôt, la recherche) aux revues qu’on peut lire dans les bibliothèques. Le portail, AccessMyLibrary, vous donne les références de l’article en vous précisant poliment : Read the rest of this article for free courtesy of your local library. Charming.

Kesako nous renvoie quand à lui vers une bibliothèque virtuelle privée, en fait des agrégats de blogs et d’autres ressources classées par thèmes, dont l’organisateur n’est autre que Marcus Zillman en personne. Je vois pas trop le rapport avec le sujet, ceci dit. Est-ce qu’en collant tout plein de blogs ensemble et en les classant par thèmes, on génère une bibliothèque (même privée) ? Le doute m’étreint.

Chez Karl on découvre un programme qui permet de gérer sa bibliothèque personnelle, lecteur de codes à barres intégré dans la webcam. C’est délire mais ça ne vaut pas une bonne classification Dewey dans son salon (en plus il faut être sous Mac).

Enfin du côté de chez Catalogablog on découvre CAT-OAI, un opac basé entièrement sur un entrepôt OAI. En fait le but est d’intégrer des entrepôts OAI dans un opac. A regarder de plus près.

Je vous souhaite un bon week-end, occupez-vous bien, lisez le BBF, cataloguez votre bibliothèque personnelle, intégrez-y des notices en OAI et des blogs, classez-la en Dewey, et je vous retrouve lundi pour de nouvelles aventures bibliothéconomiques.

Petite histoire des classifications

Pour être plus précise, je m’intéresse à trois classifications en particulier : la Dewey, la CDU et la Classification Colon.

En 1876, Melvil Dewey propose la première version de sa classification connue sous le nom de classification décimale de Dewey (CDD ou en anglais DDC). Tout le monde la connaît donc je ne reviendrai pas sur ses principes. Révisée 22 fois, elle est encore très largement utilisée aujourd’hui. Pourquoi ? Essentiellement parce qu’elle est pratique, le cheval de bataille de Melvil étant la simplicité (pour la petite histoire, il s’intéressait aussi à la simplification de l’orthographe – un précurseur du langage SMS…) et son but, donner un moyen de ranger les livres. La Dewey est aujourd’hui jalousement administrée par l’OCLC.
La Dewey est une classification hiérarchique, ce qui n’est pas révolutionnaire même à l’époque ; ce qui est nouveau c’est la notation c’est à dire le fait d’utiliser des décimales pour représenter les différentes classes et sous-classes. Si on augmente le nombre de chiffres, on avance dans la précision de l’indexation. Néanmoins, une utilisation logique dans un but de rangement voudrait qu’on applique la Dewey de manière simple (ce qui n’est pas toujours possible, en fait).

En 1905, les belges Paul Otlet et Henri Lafontaine proposent une première version d’une classification adaptée à partir de celle de Dewey, qu’ils ont conçue dans un objectif modeste : faire un catalogue sur fiches de tous les ouvrages publiés depuis l’invention de l’imprimerie, y compris les articles, la littérature grise et les brevets. Une utopie qui a de beaux jours devant elle, puisqu’on la retrouve aujourd’hui dans les portails documentaires et chez certains moteurs de recherche qui se targuent d’organiser l’information du monde. Le Manuel du répertoire bibliographique universel qui résulte de leur projet est donc, à l’origine, assez proche de la Dewey.
C’est dans sa deuxième édition, entre 1927 et 1933, que cette classification prend le nom de Classification décimale Universelle ou CDU (toujours autant de modestie). Et qu’elle marque sa différence en utilisant, à la place des enchaînements numériques simples de la Dewey, deux nouveaux types de combinaison des éléments : l’extension (barre oblique) et la relation (deux points). L’extension signifie qu’on comprend toutes les notions comprises entre les deux éléments séparés par la barre oblique. Le signe de relation au contraire introduit un rapport entre les deux notions qu’il sépare.
On aboutit à un système complexe qui permet de mieux décrire le contenu des documents, surtout dans un contexte de bibliothèque spécialisée où l’on a la possibilité d’utiliser des classes spécifiques et très détaillées, décrites séparément.

C’est en 1924 qu’un bibliothécaire indien, Ranganathan, qui était aussi mathématicien, essaye de dépasser cette notion de classification décimale hiérarchique en proposant un nouveau concept : les classifications à facettes.
Pour faire très court, on a des facettes principales qui correspondent à des concepts de base. Pour décrire un document, le concept choisi est ensuite décliné en 5 facettes :

  • la Personnalité : l’objet principal du document
  • l’Energie : l’opération subie par l’objet (on pourrait parler d’action)
  • la Matière : une substance ou une propriété
  • l’eSpace : couverture géographique
  • le Temps : la période chronologique.

L’enchaînement de ces facettes est dit : PMEST. On a ainsi des grands concepts (l’Agriculture, la Médecine) qui se déclinent chacun en listes prédéterminées d’objets, d’actions, et de propriétés. L’espace et le temps sont communs à tous les concepts. De nouveaux concepts peuvent être ajoutés, ce qui limite l’obsolescence de la classification.
Le faît d’enchaîner les propriétés toujours dans le même ordre permet d’aboutir à une notation homogène qu’on va utiliser pour ranger les livres. La notation utilise en outre des lettres, des chiffres, des caractères grecs et différents signes de ponctuation, qui lui donnent son nom de Classification Colon.

Que peut-on retenir de ce rapide résumé ?
Tout d’abord, on observe que toute classification se constitue d’une organisation de la connaissance, et d’une notation de cette organisation. Pour rapprocher cela de notre jargon actuel, on a un modèle, et un format pour représenter le modèle.
Plus le modèle est simple, plus il est efficace pour remplir son but premier : la "mise en espace", ranger des livres. Dans un but pratique (le libre accès) on va donc privilégier un modèle médiocre avec une notation simple à un modèle performant avec une notation complexe. La tendance à utiliser les classifications et leurs notations pour décrire précisément et complètement le contenu d’un livre ont cependant conduit, surtout en Europe, à adopter les notations plus complexes en sacrifiant parfois le côté pratique et la mise en espace.
La classification à facettes de Ranganathan invente un concept original avec le système des facettes : des facettes principales pour se placer dans le contexte d’un concept, puis les facettes PMEST pour détailler ce concept. Mais c’est l’obligation d’avoir une notation fixe, pour permettre la mise en espace, qui bloque Ranganathan au final dans un modèle et une notation tout aussi complexes que la CDU, et même pires.
Plus tard, d’autres outils deviennent disponibles pour l’indexation du sujet des documents : les thésaurus. Ceux-ci sont hiérarchiques, comme les classifications décimales, mais leur seul but est l’indexation et ils se débarrassent de la contrainte de la mise en espace.

J’espère déduire de tout ça quelques idées intéressantes sur les ontologies, les taxonomies et les classifications à facettes.

Pour une fois, j’ai pris mes sources dans des vrais livres en papier : la 21e édition abbrégée de la Dewey en français par Annie Bethery (la 22e vient de sortir, mais je ne l’avais pas sous la main), la 6e édition de la CDU, et cet article un peu daté mais intéressant.

Un peu de lecture

Comme je ne me sens pas très en forme ce soir, je vais vous donner un peu de lecture ailleurs.

Tout d’abord, le dernier numéro de RLG Diginews qui contient notamment un article qur l’archivage sélectif du Web par les australiens et un autre sur The Digital Image Archive of Medieval Music un site où on peut voir de la musique médiévale après avoir envoyé par la poste un formulaire papier. Un numéro technologiquement absolument incroyable.

Ensuite, petite visite au Canada pour lire les papiers d’un congrès nommé IATUL (c’est mignon) ou Information et Innovation. Plein de choses avec "digital" dans le titre mais rien qui ait particulièrement retenu mon attention.

Et maintenant le OCLC Tour avec trois nouveaux projets de recherche qui ont été annoncés:

Et aussi dans OCLC, un rapport sur le dernier Workshop FRBR.

Bonne lecture et à demain pour la suite de l’aventure des facettes, si j’ai le courage.

Y a-t-il un juriste dans la salle ?

Le projet Google Print Libraries n’est pas sans inspirer une certaine méfiance et on avait tendance à se dire "il faudrait voir les termes du contrat". Ce jour est arrivé : Librarian.net nous indique que l’Université du Michigan a mis en ligne une copie dudit fameux contrat. Je vous aurais bien mis quelques morceaux choisis, mais c’est du PDF image donc je vais me contenter de résumer.

D’abord, on y apprend que la copie qui sera livrée à la bibliothèque concerne les images, le produit de l’OCR, les références bibliographiques et l’ordre de défilement des images. Donc suffisamment de métadonnées pour les réutiliser, c’est une bonne nouvelle.

Moins drôle :

  • La bibliothèque doit interdire et empêcher techniquement les usages commerciaux et les téléchargements massifs des copies numérisées.
  • Si Google n’utilise pas dans les 3 ans le contenu qu’il a numérisé, la bibliothèque doit détruire sa propre copie.
  • La bibliothèque peut utiliser sa copie sur son site Web mais s’engage à interdire le passage des moteurs de recherche (avec un robot.txt).
  • Google s’engage à ce que les textes soient toujours cherchables gratuitement et les listes de résultats accessibles gratuitement. Rien d’autre.
  • La bibliothèque peut donner accès à sa copie pour les gens qui en ont besoin (persons having a need to access such material) mais pas à tout le monde (public at large).
  • La bibliothèque a le droit de passer des accords de partage de ces documents avec d’autres institutions, la DLF par exemple, mais elle doit associer Google comme "third party beneficiary" de cet accord.

Tout ceci me paraît très restrictif pour des ouvrages du domaine public. Si quelqu’un qui s’y connaît en contrats a envie d’y jeter un oeil… Mais vite, parce que je ne sais pas s’il va rester en ligne très longtemps.

Corpus oraux

A consulter sur le site du ministère de la Culture, le Guide des bonnes pratiques pour la constitution, l’exploitation, la diffusion et la conservation des corpus oraux encore en version de travail (attention fichier pdf de 123 pages qui a un peu du mal). Il est discuté ici.

Le texte est intéressant, il aborde tous les aspects du sujet, de la constitution des archives orales jusqu’à leur préservation sur le long terme. A noter, une partie fournie sur les questions juridiques de toute sorte, et des indications sur les formats numériques pour l’enregistrement, la conservation et la transcription.

Découvert sur Pluri(TAL).

Contrôle des formats

Dans les métadonnées de préservation, les informations concernant le format des fichiers ou des données sont essentielles pour assurer les fonctions ultérieures d’émulation ou de migration.

Le problème, c’est que bien souvent,

  • soit on ignore le format d’un fichier
  • soit on pense qu’il est dans un format donné mais on voudrait pouvoir le vérifier
  • soit on sait qu’il est dans un format donné et on voudrait savoir si les métadonnées dont on dispose concernant ce format sont pertinentes pour cet objet.

Toutes ces questions sont essentielles pour garantir des métadonnées de qualité et pertinentes, et conditionnent la possibilité de faire les opérations nécessaires à la préservations des objets numériques dans différents formats.

L’Université de Harvard et JSTOR viennent d’annoncer la sortie d’une version 1.0 de Jhove, un module qui a pour but de réaliser ces opérations de vérification et de validation avant d’alimenter les métadonnées et de faire entrer les objets dans un entrepôt de préservation. Un outil essentiel pour l’intégration dans le modèle de préservation OAIS.

Merci Ten Thousand Years blog entre autres.

Ca presse

A signaler, un site lancé par le Northern New York Library Network qui propose l’accès à 13 titres de journaux numérisés sur des périodes variables allant de 1811 à 2002.
Il y a une recherche plein texte, qui porte apparemment sur la reconnaissance OCR (à première vue assez pertinente) du texte. La visualisation se fait en PDF noir et blanc.

On peut rapprocher cette info du gros "NDNP project" piloté par la Library of Congress, pour lequel on n’a pas vraiment encore de choses visibles, mais plein d’infos techniques et autres sur cette page. Tout ceci est très prometteur. Les fichiers seront diffusés en JPEG 2000 via un plug-in propriétaire, ça peut étonner mais il semble qu’ils n’aient pas vraiment le choix vu le type de numérisation et la qualité recherchée. Pour compenser ils ont prévu une sortie alternative en PDF.

Apparemment la numérisation de la presse est très dans l’air du temps, il faut croire. Il y a même une série de conférences organisées par OCLC sur ce sujet. La conférence aura lieu en août et elle est aussi co-sponsorisée par le Utah Digital Newspapers Project qu’on connaissait déjà. J’espère qu’ils mettront les papiers en ligne car je n’ai pas vraiment prévu de passer mes vacances en Oregon (plutôt dans ce coin là).

Merci à Digitization 101 pour les différentes infos. Ce billet est spécialement dédicacé à Elise si elle passe par ici…

Deux gros pavés dans la mare

Aujourd’hui, c’est la soirée spéciale préservation du document numérique, et j’ai l’honneur de vous annoncer la sortie de deux gros pavés, au format pdf, respectivement 237 et 138 pages.

Le premier c’est le rapport final du groupe PREMIS : un groupe OCLC/RLG qui avait pour objectif de définir les métadonnées nécessaires à la préservation des documents numériques. Et il y en a beaucoup !!! On peut aussi accéder aux différentes sections séparément.

Le second, c’est une première version de la traduction française du modèle OAIS. Pour mémoire, l’OAIS est un modèle informationnel et fonctionnel qui définit les différentes composantes d’un système global et ouvert de préservation de documents numériques, les actions à mener, et les interactions entre producteur, archiveur et utilisateur. Il est assez complexe et une partie de sa force réside dans la définition de l’ensemble de la terminologie relative au domaine de la gestion des documents numériques. Petite précision, cette traduction est une version en cours de normalisation.

Enfin un wiki bibliothéconomique

Les wikis, on commence à savoir ce que c’est, et parfois même à leur reconnaître un certain sérieux (quoique controversé) : cf l’expérience wikipedia qu’on ne présente plus.

Mais bon, nous, dans les bibliothèques, nous sommes des gens sérieux. Déjà, les blogs, on avait un peu de mal, mais alors les wikis : mon dieu, quelle horreur, des informations non validées et incontrôlables.

Et pourtant… C’est d’une logique presque évidente. Les gens utilisent les catalogues. Les gens font un certain travail en plus (non le catalogage n’est pas une fin en soi…). En plus les gens lisent les livres (contrairement aux bibliothécaires).Donc, ça serait quand même bien de laisser les gens s’exprimer, entre eux, surtout qu’ils n’attendent que ça. Sans intervenir, sans valider, juste leur donner la possibilité de le faire. Et pas avec des interfaces d’annotation collaborative gaz à tous les étages, juste avec un espace Web modifiable simplement et facilement. Un wiki, quoi.

J’ai envie de sabrer le champagne en lisant qu’un des très sérieux acteurs internationaux des bibliothèques, OCLC, se lance dans l’aventure wiki. L’idée: permettre aux utilisateurs de Worldcat, où qu’ils se trouvent, de faire des commentaires, ajouts, notes de lectures etc. en wiki et de les relier aux notices du métacatalogue. Il est même question de mettre du FRBR dans la sauce. Pour cela ils développent un logiciel : MetaWiki.

On en apprend plus sur le blog de Thom Hickey lui-même membre d’OCLC.

Alors, maintenant ça devient sérieux cette idée de wiki ?

Bibliothèque hybride

Bon pour une fois je ne parle pas de bibliothèque hybride analogique-numérique, mais d’un croisement entre une bibliothèque et un musée. A Rennes, la bibliothèque municipale qui devrait ouvrir ses portes en 2006 partage ses locaux avec le Musée de Bretagne et l’Espace des sciences. Des centaines de mètres carrés de lecture publique et patrimoniale, des milliers de mètres carrés d’expositions d’oeuvres de toutes sortes, un planétarium numérique, des salles de conférences, et même une cafétéria pour la « modique » somme de 100 millions d’euros. Voilà qui a peut-être une chance de damer le pion à ceux qui pensent que les bibliothèques ne sont plus, à l’âge de Google, que des « musées du livre »… Au fait, je ne vois pas ce qu’il y a de négatif là-dedans, moi.

Source le Monde.