Figoblog Un blog sur Internet, la bibliothéconomie et la confiture de figues

Bibliothéconomie

Vrac sur la description des images

Le problème des documents non textuels (images, multimédia) est une des raisons de s'intéresser de près aux métadonnées. Pas de recherche "plein-texte", puisqu'il n'y a pas de texte ; il faut trouver un moyen de décrire.

Si on s'intéresse un peu aux schémas de métadonnées qui permettent de décrire des oeuvres (donc essentiellement des objets graphiques mais plutôt statiques, pas multimédia), on tombe sur CDWA , une norme du Getty, et son schéma XML CDWA Lite prévu pour être utilisé par exemple avec l'OAI.
CDWA prend aussi en compte le VRAcore , avec ses règles de catalogage ou CCO , où on retrouve l'idée de décrire des oeuvres et des images d'oeuvres.
Enfin le CRM est un peu à part, car il ne contente pas de dire comment décrire, il donne toute la modélisation nécéssaire sous forme d'une ontologie. J'en ai déjà parlé.

Côté multimédia, on a plutôt travaillé sur des standards de description automatisée des images, comme la norme MPEG-7 . L'idée est de ne pas se contenter de décrire l'oeuvre mais de rentrer dans le contenu, comme on le ferait pour le texte. Sauf que les repères, au lieu d'être des mots, sont des entités temporelles, des formes, des prises de vue, etc.

Côté Web sémantique on n'est pas en reste sur cette idée de rentrer dans les images. Il existe par exemple une ontologie en OWL et RDF pour décrire une région

Par Manue le 23 juillet, 2005 - 12:26 dans

Autorités

J'ai découvert via la blog OCLCien de Thom Hickey , un service d'interrogation à distance des autorités noms de personnes de la Library of Congress. Il a une petite interface ici . L'intérêt c'est surtout qu'il est développé sous la forme d'un Web service en SOAP, donc il peut être réutilisé par d'autres applications comme Dspace ou ePrints. On peut voir le fichier WSDL de description du service ici . Il y aussi un autre billet sur Outgoing qui évoque des ressources connexes sur ce sujet.

Par Manue le 19 juillet, 2005 - 23:11 dans

Dewey vs. le reste du monde

Intéressante question chez Librarian in black : qu'est-ce qui est le plus pratique pour organiser des signets, la Dewey ou une classification maison type LII ?

La réponse en visitant ce site qui organise des liens suivant la Dewey. On se rend compte que c'est très pratique quand on est déjà conditionné à chercher des documents sur le même sujet en bibliothèque. Par contre ce n'est pas forcément pertinent pour trouver des ressources récentes ou sur des sujets récents.

Moralité : la Dewey est datée mais toujours très utile parce qu'elle est répandue. Jusqu'à un certain point.

Par Manue le 18 juillet, 2005 - 21:34 dans

Catalogue is not dead

Le nouveau BBF vient de sortir avec pour titre alléchant : "Mort et transfiguration des catalogues".

Je n'ai pas encore eu le temps de le lire, évidemment, et je ne l'aurai pas non plus ce week-end, hélas. Mais je pense que ce sera un grand moment. Au programme : la visualisation, le XML, les classifications, la recherche fédérée, le renseignement à distance, Google scholar, et même le livre ancien. Je m'en pâme d'avance.

J'en profite pour glisser au passage quelques liens thématiques...

Sur Urfist Info est signalée une initative de Thomson Gale pour offrir l'accès (ou plutôt, la recherche) aux revues qu'on peut lire dans les bibliothèques. Le portail, AccessMyLibrary , vous donne les références de l'article en vous précisant poliment : Read the rest of this article for free courtesy of your local library. Charming.

Kesako nous renvoie quand à lui vers une bibliothèque virtuelle privée , en fait des agrégats de blogs et d'autres ressources classées par thèmes, dont l'organisateur n'est autre que Marcus Zillman en personne. Je vois pas trop le rapport avec le sujet, ceci dit. Est-ce qu'en collant tout plein de blogs ensemble et en les classant par thèmes, on génère une bibliothèque (même privée) ? Le doute m'étreint.

Chez Karl on découvre un programme qui permet de gérer sa bibliothèque personnelle, lecteur de codes à

Petite histoire des classifications

Pour être plus précise, je m'intéresse à trois classifications en particulier : la Dewey, la CDU et la Classification Colon.

En 1876, Melvil Dewey propose la première version de sa classification connue sous le nom de classification décimale de Dewey (CDD ou en anglais DDC). Tout le monde la connaît donc je ne reviendrai pas sur ses principes. Révisée 22 fois, elle est encore très largement utilisée aujourd'hui. Pourquoi ? Essentiellement parce qu'elle est pratique, le cheval de bataille de Melvil étant la simplicité (pour la petite histoire, il s'intéressait aussi à la simplification de l'orthographe - un précurseur du langage SMS...) et son but, donner un moyen de ranger les livres. La Dewey est aujourd'hui jalousement administrée par l'OCLC.
La Dewey est une classification hiérarchique, ce qui n'est pas révolutionnaire même à l'époque ; ce qui est nouveau c'est la notation c'est à dire le fait d'utiliser des décimales pour représenter les différentes classes et sous-classes. Si on augmente le nombre de chiffres, on avance dans la précision de l'indexation. Néanmoins, une utilisation logique dans un but de rangement voudrait qu'on applique la Dewey de manière simple (ce qui n'est pas toujours possible, en fait).

En 1905, les belges Paul Otlet et Henri Lafontaine proposent une première version d'une classification adaptée à partir de

Par Manue le 27 juin, 2005 - 21:03 dans

Un peu de lecture

Comme je ne me sens pas très en forme ce soir, je vais vous donner un peu de lecture ailleurs.

Tout d'abord, le dernier numéro de RLG Diginews qui contient notamment un article qur l'archivage sélectif du Web par les australiens et un autre sur The Digital Image Archive of Medieval Music un site où on peut voir de la musique médiévale après avoir envoyé par la poste un formulaire papier. Un numéro technologiquement absolument incroyable.

Ensuite, petite visite au Canada pour lire les papiers d'un congrès nommé IATUL (c'est mignon) ou Information et Innovation. Plein de choses avec "digital" dans le titre mais rien qui ait particulièrement retenu mon attention.

Et maintenant le OCLC Tour avec trois nouveaux projets de recherche qui ont été annoncés :

Et aussi dans OCLC, un rapport sur le dernier Workshop FRBR.

Bonne lecture et à demain pour la suite de l'aventure des facettes, si j'ai le courage.

Par Manue le 21 juin, 2005 - 21:06 dans

Y a-t-il un juriste dans la salle ?

Le projet Google Print Libraries n'est pas sans inspirer une certaine méfiance et on avait tendance à se dire "il faudrait voir les termes du contrat". Ce jour est arrivé : Librarian.net nous indique que l'Université du Michigan a mis en ligne une copie dudit fameux contrat . Je vous aurais bien mis quelques morceaux choisis, mais c'est du PDF image donc je vais me contenter de résumer.

D'abord, on y apprend que la copie qui sera livrée à la bibliothèque concerne les images, le produit de l'OCR, les références bibliographiques et l'ordre de défilement des images. Donc suffisamment de métadonnées pour les réutiliser, c'est une bonne nouvelle.

Moins drôle :

  • La bibliothèque doit interdire et empêcher techniquement les usages commerciaux et les téléchargements massifs des copies numérisées.
  • Si Google n'utilise pas dans les 3 ans le contenu qu'il a numérisé, la bibliothèque doit détruire sa propre copie.
  • La bibliothèque peut utiliser sa copie sur son site Web mais s'engage à interdire le passage des moteurs de recherche (avec un robot.txt).
  • Google s'engage à ce que les textes soient toujours cherchables gratuitement et les listes de résultats accessibles gratuitement. Rien d'autre.
  • La bibliothèque peut donner accès à sa copie pour les gens qui en ont besoin (persons having a need to access such material) mais pas à tout le monde
Par Manue le 17 juin, 2005 - 23:06 dans

Contrôle des formats

Dans les métadonnées de préservation, les informations concernant le format des fichiers ou des données sont essentielles pour assurer les fonctions ultérieures d'émulation ou de migration.

Le problème, c'est que bien souvent,

  • soit on ignore le format d'un fichier
  • soit on pense qu'il est dans un format donné mais on voudrait pouvoir le vérifier
  • soit on sait qu'il est dans un format donné et on voudrait savoir si les métadonnées dont on dispose concernant ce format sont pertinentes pour cet objet.

Toutes ces questions sont essentielles pour garantir des métadonnées de qualité et pertinentes, et conditionnent la possibilité de faire les opérations nécessaires à la préservations des objets numériques dans différents formats.

L'Université de Harvard et JSTOR viennent d'annoncer la sortie d'une version 1.0 de Jhove , un module qui a pour but de réaliser ces opérations de vérification et de validation avant d'alimenter les métadonnées et de faire entrer les objets dans un entrepôt de préservation. Un outil essentiel pour l'intégration dans le modèle de préservation OAIS.

Merci Ten Thousand Years blog entre autres.

Par Manue le 7 juin, 2005 - 22:19 dans

Corpus oraux

A consulter sur le site du ministère de la Culture, le Guide des bonnes pratiques pour la constitution, l’exploitation, la diffusion et la conservation des corpus oraux encore en version de travail (attention fichier pdf de 123 pages qui a un peu du mal). Il est discuté ici .

Le texte est intéressant, il aborde tous les aspects du sujet, de la constitution des archives orales jusqu'à leur préservation sur le long terme. A noter, une partie fournie sur les questions juridiques de toute sorte, et des indications sur les formats numériques pour l'enregistrement, la conservation et la transcription.

Découvert sur Pluri(TAL) .

Par Manue le 7 juin, 2005 - 00:06 dans

Ca presse

A signaler, un site lancé par le Northern New York Library Network qui propose l'accès à 13 titres de journaux numérisés sur des périodes variables allant de 1811 à 2002.
Il y a une recherche plein texte, qui porte apparemment sur la reconnaissance OCR (à première vue assez pertinente) du texte. La visualisation se fait en PDF noir et blanc.

On peut rapprocher cette info du gros "NDNP project" piloté par la Library of Congress, pour lequel on n'a pas vraiment encore de choses visibles, mais plein d'infos techniques et autres sur cette page . Tout ceci est très prometteur. Les fichiers seront diffusés en JPEG 2000 via un plug-in propriétaire, ça peut étonner mais il semble qu'ils n'aient pas vraiment le choix vu le type de numérisation et la qualité recherchée. Pour compenser ils ont prévu une sortie alternative en PDF.

Apparemment la numérisation de la presse est très dans l'air du temps, il faut croire. Il y a même une série de conférences organisées par OCLC sur ce sujet. La conférence aura lieu en août et elle est aussi co-sponsorisée par le Utah Digital Newspapers Project qu'on connaissait déjà. J'espère qu'ils mettront les papiers en ligne car je n'ai pas vraiment prévu de passer mes vacances en Oregon (plutôt dans ce coin là ).

Merci à Digitization 101 pour les différentes infos. Ce billet est spécialement

Par Manue le 27 mai, 2005 - 23:11 dans
Design Figoblog 2008 - Image from http://www.europeana.eu - http://photo.rmn.fr : Codex Vindobonensis, series nova 2644: folio 4 verso