Satellite

Les recontres annuelles de l’IFLA, ce ne sont pas seulement des conférences dont tout le monde a entendu parler mais aussi des conférences satellite comme celle-ci intitulée : "comment organiser le chaos" ?
Dans cette dernière, je vous recommande chaudement le papier de Patrick Le Boeuf qui constitue le "library viewpoint" de cette épineuse question.

Nous, bibliothécaires, pensons-nous qu’il est possible d’organiser toute l’information du monde ?
Au premier abord, l’auteur serait tenté de répondre "non" (parce que c’est une réponse de français…) Mais il décide quand même finalement de développer un peu.

Et il prend un malin plaisir à retourner la question dans tous les sens : qu’est-ce que l’information en général ? et pour une bibliothèque ? Peut-on considérer toute l’information ? Si c’est possible, est-ce seulement désirable de l’organiser ? Et qui va le faire, et comment ?
Autant de questions qui nous emmènent de la politique documentaire aux wikis, des notices d’autorité à la visualisation d’information, des minorités culturelles aux FRBR, des fonctionnalités de l’OPAC aux ontologies.
Je dirais que cet article fait un excellent panorama des questions qui se posent aujourd’hui aux bibliothèques, entre leur histoire et leurs activités traditionnelles, et leurs nouvelles missions dans l’univers du Web.

En outre, dans cet article savoureux, on pourra se demander si Froben aurait accepté de travailler pour Google, s’interroger sur la tendance des bibliothécaires à s’infliger des limitations arbitraires dans leur conception de l’oganisation de la description bibliographique, évoquer les 1595 manifestions différentes d‘Alice au Pays des merveilles, et discuter les préférences linguistiques de Conrad Gessner. Et rien que pour ça, ça vaut la peine de le lire. (Et je dis pas ça à cause des remerciements, même si ça m’a fait terriblement plaisir ;-)

Où trouver des bibliothèques numériques ?

Faire un tour d’horizon des initiatives de numérisation dans le monde peut sembler au premier abord une tâche titanesque, tant elles sont nombreuses, diverses et dispersées. En réalité, on peut se féliciter du fait que des tas de gens ont déjà fait la liste des bibliothèques numériques existantes…

On trouve une liste de projets de bibliothèques numériques sur wikipedia : évidemment comme tout ce qui figure dans cette encyclopédie, il se peut que cela n’apparaisse pas comme parfait dans le détail mais alors il suffit d’ajouter sa propre contribution.

Notre ami germanique du blog NetBib a lui aussi fait une liste qui est extraordinaire de richesse, de détail et de pertinence. Chaque bibliothèque numérique est reliée à l’entrée correspondante dans le blog quand elle existe, ce qui devrait réjouir les gens qui ont la chance de pratiquer l’allemand.

Au Canada, la British Columbia International Digital Library propose aussi de répertorier des bibliothèques numériques, en mettant l’accent sur celles qui sont en mode texte. On trouve des bibliothèques numériques classées par nom, par sujet ou encore par lieu, une bibliographie et une liste de portails et de répertoires.

J’avais déjà mentionné en "brève" ce billet d’Archivalia qui donne aussi quelques pistes mais pour trouver directement des livres.

Et puis maintenant, on en trouve aussi plein dans mon delicious, et je n’en ai pas encore fini. D’ailleurs, pour les gens qui en ont adopté le fil RSS, j’espère que vous me pardonnez cette avalanche de références que je n’ai pas toujours le temps de commenter, il n’y en a plus pour longtemps ;-)

Certification des archives numériques

Le groupe de travail RLG et la NARA (National Archives and Records Administration américaine), qui travaillent sur la certification des archives numériques, nous proposent aujourd’hui de relire le brouillon d’un document destiné à évaluer lesdites archives.

Je vais essayer de décrypter un peu. Tout système qui se targue de conserver des documents numériques sur le très long terme, par exemple en se conformant au modèle OAIS, devra un jour ou l’autre être capable de se réclamer d’une garantie. A l’heure actuelle on ne peut que spéculer, et aucune institution ou entreprise ne peut prouver par l’expérience qu’elle est capable de préserver des documents numériques sur 100 ans ! Il faut donc trouver un autre moyen de le prouver ou tout au moins, de prouver qu’on s’en donne les moyens.

Le rôle du Audit Checklist for Certifying Digital Repositories est donc de disposer de critères de référence pour procéder à cette évaluation.

Ce document s’adresse à la fois

  • à ceux qui mettent en place une archive, car ils disposent ainsi de la liste de courses des choses à accomplir et éventuellement, à publier ;
  • aux producteurs, qui peuvent se faire une idée plus précise de ce qu’ils doivent faire pour que leur production soit conservée ;
  • et surtout, aux personnes qui doivent choisir un tiers archiveur pour leurs documents numériques et souhaitent s’assurer de la fiabilité du service.

Quand on sait ce que représente la mise en place d’une archive numérique conforme OAIS, il paraît clair que la plupart des institutions ne pourront pas le faire chez elles et devront recourir à un tiers pour ce service, que le tiers soit institutionnel lui aussi, ou privé. Elles auront donc besoin à la fois de bien connaître les bases de la préservation et le modèle OAIS, et de disposer d’un outil d’évaluation dont RLG nous proposerait ici la première brique (brique à évaluer d’ici janvier 2006.)

Un peu de pub, une fois n’est pas coutume, j’en profite pour signaler à ceux qui s’intéressent à cette épineuse question de la préservation du document numérique, qu’une formation excellente et très complète est organisée par le groupe PIN courant septembre et il resterait paraît-il quelques places. Une formation qui a été conçue par des gens très recommandables, donc n’hésitez pas ;-)

Un bon « systems librarian »

On peut découvrir depuis quelques jours le projet MyLibrary@Ockham, qui est un projet original de services autour d’une collection des documents harvestés en OAI. L’idée est de réunir ces notices OAI et d’essayer d’améliorer la fonction de rebonds en leur ajoutant quoi, je vous le donne en mille : des facettes !!! L’interface de consultation n’est à mon avis pas tout à fait adaptée pour en exploiter tout le potentiel, mais l’idée est réjouissante. Pour en savoir plus sur ce projet c’est par ici.

C’est Eric Lease Morgan qui est derrière ce projet, et au passage, sur le LitaBlog, il nous donne les clefs pour devenir, comme lui, un bon "systems librarian" capable de faire des beaux projets comme celui-là. C’est très facile, il suffit de maîtriser :

  • XML et XSL
  • les bases de données relationnelles
  • l’indexation (au sens informatique du terme)
  • les serveurs Web, en particulier Apache
  • et un langage de programmation : Perl, Java ou PHP.

Evidemment pour tout cela il vaut mieux aussi savoir se débrouiller sous Linux.

Alors, vous en êtes ?

(Merci à Catalogablog et Librarian.net.)

Ca presse (suite)

On peut consulter les présentations de la journée Digitizing Historic Newspapers: A Practical Approach (qui s’est tenue le 18 juillet à Denver, Colorado) en ligne en plus d’un résumé de la journée.

Je penseais qu’il s’agissait de la journée dont j’avais parlé mais en fait non !? Ni la date ni le lieu ne correspondent.

C’est pas grave, c’est intéressant quand même ; je vous conseille tout particulièrement la section fundings et la section copyright, c’est savoureux.

Convergence

Les rencontres annuelles de RLG , en juillet, avaient pour thème la convergence entre les bibliothèques, les musées, et les archives. On peut consulter ici le compte-rendu.

La convergence, c’est d’abord trouver des mots pour se parler : parce que des mots comme "collection" n’ont pas forcément partout le même sens. Puis c’est définir des objectifs : un public commun, une mission commune (la conservation). La convergence c’est exploiter des compétences complémentaires. La convergence c’est parfois cohabiter : dans l’espace (comme bientôt à Rennes), dans l’action.

Mais la convergence si l’on en croit les réflexions RLGiennes, c’est avant tout un problème lié au numérique et au besoin d’un accès unifié, transparent aux collections.
Quel délicieux paradoxe : plus que jamais nous devons organiser, structurer, cadrer, normaliser les collections numériques, afin d’atteindre cette convergence – cette intéropérabilité qui permettra à l’utilisateur final, dans une ultime réjouissance, de tout fusionner et applatir dans le magma informe de la « recherche simple ».

Pour ceux qui s’intéressent à ce veulent les usagers, on peut consulter sur le site de la bibliothèque nationale néo-zélandaise un rapport intitulé A Textured Sculpture: The Information Needs of End-Users of Digitised Collections of New Zealand Cultural Heritage Resources(en PDF : résumé et texte complet) : rien de révolutionnaire, mais c’est toujours intéressant à lire. Il y a une petite partie sur les fonctionnalités spécifiques demandées par les historiens, parmi lesquelles on compte :

  • possibilité de butiner le site avec des vignettes pour faciliter la mise en contexte,
  • qualité du catalogage, des inventaires et des descriptions de documents en général (donc les métadonnées ;-),
  • longévité et intégrité des sources et de leur version numérique.

Je les remercie d’apporter ainsi de l’eau à mon moulin et de me conforter dans mon combat quotidien en faveur du butinage, du métadonnage et de l’archivage des collections numériques…

On se remet au boulot

Voilà, je suis partie presque 4 semaines, c’est long, et pendant ce temps la bibliothéconomie a continué d’avancer… Je vous propose un petit rattrappage des événements bibliothéconomiques depuis la fin juillet.

17 juillet : OCLC annonce la mise à disposition d’un résolveur OpenURL gratuit. Un mois plus tard, CrossRef en fait autant.

24 juillet : annoncé sur 10kyBlog, est créé un calendrier international des conférences en sciences de l’information – il est pour l’instant complètement vide.

27 juillet : l’IFLA propose un brouillon des FRAR (Functionnal Requirements for Authority Records), l’équivalent des FRBR mais pour les notices d’autorité. A réviser pour le 28 octobre.

29 juillet : OCLC sort le DeweyBrowser, une interface jolie pour parcourir une collection d’e-books classés en Dewey. Un peu gadget mais ya de l’idée.

2 août : sur le FRBR blog , on s’intéresse à l’expression des FRBR en RDF avec deux textes de référence : un pour les core concepts et un autre pour les extended concepts.

3 août : Juriblog annonce dans le nouveau numéro d’Archimag un article sur la blogosphère et son impact dans le monde de la documentation (pas encore lu).

3 août : première publication par le JISC d’un premier bout du Digital Curation Manual, consacré à l’open source.

Août (sans date précise) : plusieurs sources évoquent la création de ColLib, un wiki destiné à organiser l’information en libre accès dans le domaine des sciences de l’info, notamment en permettant l’étiquetage (ou tagging) de notices OAI.

10 août : nos amis de Catalogablog lancent un bookmark partagé qui récapitule les "MARC Tools", outils disponibles pour manipuler le format MARC.

11 août : nos amis de Google annoncent une pause dans le programme Google print, destinée à permettre jusqu’en novembre aux détenteurs de droits de se faire connaître s’ils ne souhaitent pas que leurs ouvrages soient scannés par le "library project". Cette pause est présentée comme une nouvelle fonctionnalité du programme ("new feature"), comme c’est mignon.

17 août : la Library of Congress lance un nouveau site d’étude sur le Copyright, avec pour objectif de faire reconnaître légalement les exceptions propres aux bibliothèques.

Je pense avoir fait à peu près le tour. Mes sources sont les mêmes que d’habitude, excusez la flemme de tout récapituler. La photo vient de la cathédrale d’Auch.

Vrac sur la description des images

Le problème des documents non textuels (images, multimédia) est une des raisons de s’intéresser de près aux métadonnées. Pas de recherche « plein-texte », puisqu’il n’y a pas de texte ; il faut trouver un moyen de décrire.

Si on s’intéresse un peu aux schémas de métadonnées qui permettent de décrire des oeuvres (donc essentiellement des objets graphiques mais plutôt statiques, pas multimédia), on tombe sur CDWA, une norme du Getty, et son schéma XML CDWA Lite prévu pour être utilisé par exemple avec l’OAI.
CDWA prend aussi en compte le VRAcore, avec ses règles de catalogage ou CCO, où on retrouve l’idée de décrire des oeuvres et des images d’oeuvres.
Enfin le CRM est un peu à part, car il ne contente pas de dire comment décrire, il donne toute la modélisation nécéssaire sous forme d’une ontologie. J’en ai déjà parlé.

Côté multimédia, on a plutôt travaillé sur des standards de description automatisée des images, comme la norme MPEG-7. L’idée est de ne pas se contenter de décrire l’oeuvre mais de rentrer dans le contenu, comme on le ferait pour le texte. Sauf que les repères, au lieu d’être des mots, sont des entités temporelles, des formes, des prises de vue, etc.

Côté Web sémantique on n’est pas en reste sur cette idée de rentrer dans les images. Il existe par exemple une ontologie en OWL et RDF pour décrire une région d’une image. Il existe aussi une spec du W3C pour décrire et retrouver des photos avec RDF et HTTP. Et des outils pour encapsuler une description en RDF dans une image.

Pour ces trois derniers liens merci à mon geek, et à catalogablog principalement pour le reste.

Autorités

J’ai découvert via la blog OCLCien de Thom Hickey, un service d’interrogation à distance des autorités noms de personnes de la Library of Congress. Il a une petite interface ici. L’intérêt c’est surtout qu’il est développé sous la forme d’un Web service en SOAP, donc il peut être réutilisé par d’autres applications comme Dspace ou ePrints. On peut voir le fichier WSDL de description du service ici. Il y aussi un autre billet sur Outgoing qui évoque des ressources connexes sur ce sujet.

Dewey vs. le reste du monde

Intéressante question chez Librarian in black : qu’est-ce qui est le plus pratique pour organiser des signets, la Dewey ou une classification maison type LII ?

La réponse en visitant ce site qui organise des liens suivant la Dewey. On se rend compte que c’est très pratique quand on est déjà conditionné à chercher des documents sur le même sujet en bibliothèque. Par contre ce n’est pas forcément pertinent pour trouver des ressources récentes ou sur des sujets récents.

Moralité : la Dewey est datée mais toujours très utile parce qu’elle est répandue. Jusqu’à un certain point.