Numérisation, externalisation

La numérisation ça coûte cher, surtout en ressources humaines et en compétences ; et pour une bibliothèque se pose la question des économies qu’elle peut faire grâce à l’externalisation auprès d’un prestataire privé d’une partie des opérations. Cependant, peut-on tout externaliser ? Ceux qui se posent cette question devraient lire ce billet sur le blog Digitization 101.

Les trois principales choses qui ne peuvent pas être externalisées sont les suivantes.

  • La gestion du projet lui-même, c’est-à-dire en particulier les contacts avec le prestataire. Et bien sûr pour cela il faut connaître un minimum la technique.
  • La sélection documentaire. On pourrait l’externaliser, mais la probabilité d’être satisfait du résultat est faible.
  • Les specifications fonctionnelles. Une fois les ouvrages numérisés, qui peut décider quelles possibilités on donnera pour les consulter, ou comment sera organisé l’accès à ces documents ? Tout cela dépend fortement des objectifs du projet et du public cible. Difficile à externaliser, c’est trop important.

Alors qu’est-ce qui reste ? la technique pure : la numérisation elle-même, et la mise en place du système de consultation à partir d’un cahier des charges précis et exigeant. Il n’est pas raisonnable de faire l’économie du reste, la bibliothèque doit rester maître de son projet, de la sélection à la diffusion, afin de s’assurer que son public sera satisfait et que l’image du service sera bonne.

Toute ressemblance avec des faits ou des personnes ayant choisi de faire le contraire est purement fortuite.

Où trouver des bibliothèques numériques ?

Faire un tour d’horizon des initiatives de numérisation dans le monde peut sembler au premier abord une tâche titanesque, tant elles sont nombreuses, diverses et dispersées. En réalité, on peut se féliciter du fait que des tas de gens ont déjà fait la liste des bibliothèques numériques existantes…

On trouve une liste de projets de bibliothèques numériques sur wikipedia : évidemment comme tout ce qui figure dans cette encyclopédie, il se peut que cela n’apparaisse pas comme parfait dans le détail mais alors il suffit d’ajouter sa propre contribution.

Notre ami germanique du blog NetBib a lui aussi fait une liste qui est extraordinaire de richesse, de détail et de pertinence. Chaque bibliothèque numérique est reliée à l’entrée correspondante dans le blog quand elle existe, ce qui devrait réjouir les gens qui ont la chance de pratiquer l’allemand.

Au Canada, la British Columbia International Digital Library propose aussi de répertorier des bibliothèques numériques, en mettant l’accent sur celles qui sont en mode texte. On trouve des bibliothèques numériques classées par nom, par sujet ou encore par lieu, une bibliographie et une liste de portails et de répertoires.

J’avais déjà mentionné en "brève" ce billet d’Archivalia qui donne aussi quelques pistes mais pour trouver directement des livres.

Et puis maintenant, on en trouve aussi plein dans mon delicious, et je n’en ai pas encore fini. D’ailleurs, pour les gens qui en ont adopté le fil RSS, j’espère que vous me pardonnez cette avalanche de références que je n’ai pas toujours le temps de commenter, il n’y en a plus pour longtemps ;-)

Ca presse (suite)

On peut consulter les présentations de la journée Digitizing Historic Newspapers: A Practical Approach (qui s’est tenue le 18 juillet à Denver, Colorado) en ligne en plus d’un résumé de la journée.

Je penseais qu’il s’agissait de la journée dont j’avais parlé mais en fait non !? Ni la date ni le lieu ne correspondent.

C’est pas grave, c’est intéressant quand même ; je vous conseille tout particulièrement la section fundings et la section copyright, c’est savoureux.

Convergence

Les rencontres annuelles de RLG , en juillet, avaient pour thème la convergence entre les bibliothèques, les musées, et les archives. On peut consulter ici le compte-rendu.

La convergence, c’est d’abord trouver des mots pour se parler : parce que des mots comme "collection" n’ont pas forcément partout le même sens. Puis c’est définir des objectifs : un public commun, une mission commune (la conservation). La convergence c’est exploiter des compétences complémentaires. La convergence c’est parfois cohabiter : dans l’espace (comme bientôt à Rennes), dans l’action.

Mais la convergence si l’on en croit les réflexions RLGiennes, c’est avant tout un problème lié au numérique et au besoin d’un accès unifié, transparent aux collections.
Quel délicieux paradoxe : plus que jamais nous devons organiser, structurer, cadrer, normaliser les collections numériques, afin d’atteindre cette convergence – cette intéropérabilité qui permettra à l’utilisateur final, dans une ultime réjouissance, de tout fusionner et applatir dans le magma informe de la « recherche simple ».

Pour ceux qui s’intéressent à ce veulent les usagers, on peut consulter sur le site de la bibliothèque nationale néo-zélandaise un rapport intitulé A Textured Sculpture: The Information Needs of End-Users of Digitised Collections of New Zealand Cultural Heritage Resources(en PDF : résumé et texte complet) : rien de révolutionnaire, mais c’est toujours intéressant à lire. Il y a une petite partie sur les fonctionnalités spécifiques demandées par les historiens, parmi lesquelles on compte :

  • possibilité de butiner le site avec des vignettes pour faciliter la mise en contexte,
  • qualité du catalogage, des inventaires et des descriptions de documents en général (donc les métadonnées ;-),
  • longévité et intégrité des sources et de leur version numérique.

Je les remercie d’apporter ainsi de l’eau à mon moulin et de me conforter dans mon combat quotidien en faveur du butinage, du métadonnage et de l’archivage des collections numériques…

On se remet au boulot

Voilà, je suis partie presque 4 semaines, c’est long, et pendant ce temps la bibliothéconomie a continué d’avancer… Je vous propose un petit rattrappage des événements bibliothéconomiques depuis la fin juillet.

17 juillet : OCLC annonce la mise à disposition d’un résolveur OpenURL gratuit. Un mois plus tard, CrossRef en fait autant.

24 juillet : annoncé sur 10kyBlog, est créé un calendrier international des conférences en sciences de l’information – il est pour l’instant complètement vide.

27 juillet : l’IFLA propose un brouillon des FRAR (Functionnal Requirements for Authority Records), l’équivalent des FRBR mais pour les notices d’autorité. A réviser pour le 28 octobre.

29 juillet : OCLC sort le DeweyBrowser, une interface jolie pour parcourir une collection d’e-books classés en Dewey. Un peu gadget mais ya de l’idée.

2 août : sur le FRBR blog , on s’intéresse à l’expression des FRBR en RDF avec deux textes de référence : un pour les core concepts et un autre pour les extended concepts.

3 août : Juriblog annonce dans le nouveau numéro d’Archimag un article sur la blogosphère et son impact dans le monde de la documentation (pas encore lu).

3 août : première publication par le JISC d’un premier bout du Digital Curation Manual, consacré à l’open source.

Août (sans date précise) : plusieurs sources évoquent la création de ColLib, un wiki destiné à organiser l’information en libre accès dans le domaine des sciences de l’info, notamment en permettant l’étiquetage (ou tagging) de notices OAI.

10 août : nos amis de Catalogablog lancent un bookmark partagé qui récapitule les "MARC Tools", outils disponibles pour manipuler le format MARC.

11 août : nos amis de Google annoncent une pause dans le programme Google print, destinée à permettre jusqu’en novembre aux détenteurs de droits de se faire connaître s’ils ne souhaitent pas que leurs ouvrages soient scannés par le "library project". Cette pause est présentée comme une nouvelle fonctionnalité du programme ("new feature"), comme c’est mignon.

17 août : la Library of Congress lance un nouveau site d’étude sur le Copyright, avec pour objectif de faire reconnaître légalement les exceptions propres aux bibliothèques.

Je pense avoir fait à peu près le tour. Mes sources sont les mêmes que d’habitude, excusez la flemme de tout récapituler. La photo vient de la cathédrale d’Auch.

Un peu de lecture

Comme je ne me sens pas très en forme ce soir, je vais vous donner un peu de lecture ailleurs.

Tout d’abord, le dernier numéro de RLG Diginews qui contient notamment un article qur l’archivage sélectif du Web par les australiens et un autre sur The Digital Image Archive of Medieval Music un site où on peut voir de la musique médiévale après avoir envoyé par la poste un formulaire papier. Un numéro technologiquement absolument incroyable.

Ensuite, petite visite au Canada pour lire les papiers d’un congrès nommé IATUL (c’est mignon) ou Information et Innovation. Plein de choses avec "digital" dans le titre mais rien qui ait particulièrement retenu mon attention.

Et maintenant le OCLC Tour avec trois nouveaux projets de recherche qui ont été annoncés:

Et aussi dans OCLC, un rapport sur le dernier Workshop FRBR.

Bonne lecture et à demain pour la suite de l’aventure des facettes, si j’ai le courage.

Y a-t-il un juriste dans la salle ?

Le projet Google Print Libraries n’est pas sans inspirer une certaine méfiance et on avait tendance à se dire "il faudrait voir les termes du contrat". Ce jour est arrivé : Librarian.net nous indique que l’Université du Michigan a mis en ligne une copie dudit fameux contrat. Je vous aurais bien mis quelques morceaux choisis, mais c’est du PDF image donc je vais me contenter de résumer.

D’abord, on y apprend que la copie qui sera livrée à la bibliothèque concerne les images, le produit de l’OCR, les références bibliographiques et l’ordre de défilement des images. Donc suffisamment de métadonnées pour les réutiliser, c’est une bonne nouvelle.

Moins drôle :

  • La bibliothèque doit interdire et empêcher techniquement les usages commerciaux et les téléchargements massifs des copies numérisées.
  • Si Google n’utilise pas dans les 3 ans le contenu qu’il a numérisé, la bibliothèque doit détruire sa propre copie.
  • La bibliothèque peut utiliser sa copie sur son site Web mais s’engage à interdire le passage des moteurs de recherche (avec un robot.txt).
  • Google s’engage à ce que les textes soient toujours cherchables gratuitement et les listes de résultats accessibles gratuitement. Rien d’autre.
  • La bibliothèque peut donner accès à sa copie pour les gens qui en ont besoin (persons having a need to access such material) mais pas à tout le monde (public at large).
  • La bibliothèque a le droit de passer des accords de partage de ces documents avec d’autres institutions, la DLF par exemple, mais elle doit associer Google comme "third party beneficiary" de cet accord.

Tout ceci me paraît très restrictif pour des ouvrages du domaine public. Si quelqu’un qui s’y connaît en contrats a envie d’y jeter un oeil… Mais vite, parce que je ne sais pas s’il va rester en ligne très longtemps.

Ca presse

A signaler, un site lancé par le Northern New York Library Network qui propose l’accès à 13 titres de journaux numérisés sur des périodes variables allant de 1811 à 2002.
Il y a une recherche plein texte, qui porte apparemment sur la reconnaissance OCR (à première vue assez pertinente) du texte. La visualisation se fait en PDF noir et blanc.

On peut rapprocher cette info du gros "NDNP project" piloté par la Library of Congress, pour lequel on n’a pas vraiment encore de choses visibles, mais plein d’infos techniques et autres sur cette page. Tout ceci est très prometteur. Les fichiers seront diffusés en JPEG 2000 via un plug-in propriétaire, ça peut étonner mais il semble qu’ils n’aient pas vraiment le choix vu le type de numérisation et la qualité recherchée. Pour compenser ils ont prévu une sortie alternative en PDF.

Apparemment la numérisation de la presse est très dans l’air du temps, il faut croire. Il y a même une série de conférences organisées par OCLC sur ce sujet. La conférence aura lieu en août et elle est aussi co-sponsorisée par le Utah Digital Newspapers Project qu’on connaissait déjà. J’espère qu’ils mettront les papiers en ligne car je n’ai pas vraiment prévu de passer mes vacances en Oregon (plutôt dans ce coin là).

Merci à Digitization 101 pour les différentes infos. Ce billet est spécialement dédicacé à Elise si elle passe par ici…

Enfin un wiki bibliothéconomique

Les wikis, on commence à savoir ce que c’est, et parfois même à leur reconnaître un certain sérieux (quoique controversé) : cf l’expérience wikipedia qu’on ne présente plus.

Mais bon, nous, dans les bibliothèques, nous sommes des gens sérieux. Déjà, les blogs, on avait un peu de mal, mais alors les wikis : mon dieu, quelle horreur, des informations non validées et incontrôlables.

Et pourtant… C’est d’une logique presque évidente. Les gens utilisent les catalogues. Les gens font un certain travail en plus (non le catalogage n’est pas une fin en soi…). En plus les gens lisent les livres (contrairement aux bibliothécaires).Donc, ça serait quand même bien de laisser les gens s’exprimer, entre eux, surtout qu’ils n’attendent que ça. Sans intervenir, sans valider, juste leur donner la possibilité de le faire. Et pas avec des interfaces d’annotation collaborative gaz à tous les étages, juste avec un espace Web modifiable simplement et facilement. Un wiki, quoi.

J’ai envie de sabrer le champagne en lisant qu’un des très sérieux acteurs internationaux des bibliothèques, OCLC, se lance dans l’aventure wiki. L’idée: permettre aux utilisateurs de Worldcat, où qu’ils se trouvent, de faire des commentaires, ajouts, notes de lectures etc. en wiki et de les relier aux notices du métacatalogue. Il est même question de mettre du FRBR dans la sauce. Pour cela ils développent un logiciel : MetaWiki.

On en apprend plus sur le blog de Thom Hickey lui-même membre d’OCLC.

Alors, maintenant ça devient sérieux cette idée de wiki ?

Fini de bricoler

Alors qu’aux tout débuts de la numérisation on évoluait dans un monde incertain d’expérimentation, d’apprentissage sur le tas, et de tâtonnements, aujourd’hui il n’est plus question de procéder de la sorte. La numérisation s’est stabilisée et normalisée, pour preuve ce document publié par l’organisme de normalisation américain (NISO) : A Framework of Guidance for Building Good Digital Collections. Le "good" annonce bien la couleur : il s’agit de recommandations pour construire des collections numériques de qualité.

Le document est organisé en 4 grands axes : les collections, les objets numériques, les métadonnées et les projets.

Parmi les principales problématiques soulevées, qui sont les points critiques de la construction de « bonnes » collections numériques, on notera la cohérence de la politique documentaire, la pérennité des objets et des métadonnées, les identifiants pérennes, l’intéropérabilité et l’accessibilité, la gestion des droits.

Un des points vraiment intéressants dans ce document c’est les tableaux qui récapitulent les « guidelines » disponibles sur les formats de numérisation et les formats de métadonnées.

Beaucoup de références, beaucoup de liens, un document qui fait le tour de la question, hautement recommandable. Merci à Digitization 101 (qui nous signale au passage qu’il s’agit d’une nouvelle version d’un document de 2001 et qu’on ignore quelles sont les différences. Ils feraient peut-être bien de suivre leurs propres conseils, chez NISO ;-)