Documents en voie de disparition

J’avais l’intention de faire un billet sur la conservation des documents numériques, notamment suite à un article diffusé sur ArchiveSic qui faisait assez bien le point sur la question – mais BlogoKat a été plus rapide que moi et je l’en remercie. Donc allez lire cet article, une bonne introduction au sujet, mais attention aux fautes d’orthographe ;-)

Sur le sujet, une des ressources clef est le groupe PIN (pour "pérennisation de l’information numérique"). C’est un groupe dont l’objectif est de rassembler des gens de plusieurs secteurs d’activités qui s’intéressent à cette problématique compliquée : des institutions patrimoniales, des organismes de recherche scientifique, des entreprises… Et tous ces gens travaillent à la veille et à la dissémination de l’expertise dans ce domaine.

Tout ça pour dire qu’on trouve sur le site du groupe PIN, parmi moult ressources sur la préservation des documents numériques, les comptes-rendus des réunions du groupe dont la dernière s’est tenue la semaine dernière.

En prime, je vous offre la fameuse photo du dodo du Salon du livre dont je vous parlais l’autre jour. Dans le genre espèces disparues…

Bloguifiez vos listes

Justement, aujourd’hui, je rentre de week-end (j’étais , sur la photo), j’ouvre ma boîte aux lettres (électronique, cela va sans dire) et je croule sous les messages de listes de discussions diverses et variées. Non pas que ce soit désagréable, hein, mais cela complique la gestion des choses. Par ailleurs, j’ai plus l’habitude de crouler sous les billets dans mon aggrégateur RSS, donc cela perturbe mon environnement cognitif.

J’ai bien essayé quelques solutions ; par exemple, dans Bloglines on peut créer des adresses e-mail, avec lesquelles on s’abonne aux listes et hop, ça arrive dans le paquet "aggrégateur". Mais bon, je n’étais pas pleinement satisfaite : les fonctionnalités de gestion d’e-mail ne sont pas les mêmes que celles des billets, et encore une fois, ça me perturbe.

Et aujourd’hui, je viens découvrir Gmane : un service gratuit qui bloguifie les listes de discussion. En clair, il leur donne une interface qui ressemble à un blog, et un fil RSS. On y trouve par exemple la liste Web4Lib à laquelle je n’avais jamais eu le courage de m’abonner, mais maintenant c’est fait.

Evidemment on peut toujours discuter : est-ce un blog, un faux-blog, un pseudo-blog…

Pour les mordus de RSS, il y a aussi le site LISfeeds qui recense et aggrège tout plein de fils en sciences de l’info – pas seulement anglophones (sauf le mien, snif !)

Tant que j’y suis, je signale la naissance de deux blogs archi, mais alors archi spécialisés (quand je pense qu’il y a des gens qui trouvent qu’on ne comprend rien à ce que j’écris) :

  • OpenURL Bits, un blog qui se consacre à dire du bien d’OpenURL
  • DRM Blog, un blog qui se consacre à dire du mal des DRM .

Merci à Librarian.net, à Zid offline, et à 10kyBlog.

Edition électronique de textes

J’ai vu passer sur Catalogablog et DigitizationBlog une info sur le site Electronic Textual Editing du TEI consortium, et bien que je ne sache pas trop quoi faire de cette info, j’ai décidé de la ranger ici.

En fait, si j’ai bien compris, il s’agit d’un livre en préparation qui regroupe des articles sur l’utilisation de la TEI. Comme ces gens-là font les choses bien, ils ont préparé le livre en TEI et ils ont mis les articles en ligne.

Ca a l’air intéressant, il y a diverses choses médiévalisantes qui devraient faire plaisir à mon geek s’il ne les connaît pas encore, et aussi des choses sur la façon d’utiliser la TEI : par exemple un article sur les niveaux de transcription qui s’intéresse à la "profondeur" du balisage.

Si vous voulez en savoir plus sur la TEI, vous pouvez rendre visite à Blogokat. Si vous voulez savoir à quoi peut servir la TEI en bibliothèque – où s’arrête la numérisation, où commence l’édition – lisez ça.

Extensions

J’ai découvert deux supers extensions pour Firefox à installer d’urgence.

La première c’est MozCC : une extension qui permet de visualiser, dans la barre d’état (en bas de votre navigateur), les termes de la licence Creative Commons du site que vous êtes en train de consulter. Ca marche si le site est sous licence Creative Commons, cela va de soi, et si la licence est correctement encodée dans la page pour être machine-readable.

La seconde s’appelle Dublin Core Viewer, et elle ajoute dans votre barre d’état (même endroit) un petit bouton en forme de logo du DCMI. Si le site possède des métadonnées en Dublin Core correctement encodées elles aussi, le petit bouton devient orange, vous cliquez et les métadonnées s’affichent.

Merci à mon geek et à Catalogablog.

Salon du livre 2005

Aujourd’hui, je suis allée au salon du livre pour la journée professionnelle du lundi. Il n’y avait pas, comme l’année dernière, une foule de conférences qui m’intéressaient, aussi je me suis contentée de me ballader entre les stands et de m’imprégner.

L’autre jour, une amie me demandait ce qu’il y avait de si spécial au salon du livre, et je lui ai répondu que c’était comme une librairie, mais en géant. En fait, j’étais bien en-dessous de la réalité.

Le Salon du livre est en effet une grande librairie, mais une librairie où on peut avoir un vrai dialogue avec les éditeurs, par exemple dans le secteur jeunesse où ils vous font découvrir aussi bien les nouveautés que les incontournables, en fonction de ce qu’on cherche. Même si on cherche un truc saugrenu comme le Garçon des figues.

On y rencontre aussi des gens extraordinaires, comme Viviane Hamy qui n’est pas seulement l’éditeur de Fred Vargas, mais aussi une femme ébouriffante qui peut vous parler d’un de ses auteurs avec une flamme dans les yeux, et vous faire voyager de la maison de celui-ci dans le Sud de la France jusqu’au Paris du milieu du XXe siècle sans que vous y voyiez que du feu.

On y croise des gens connus, ou seulement des connaissances, et puis même des amis, rituel annuel, pour boire un café (ou plutôt une bière) assis par terre sur la moquette rouge et parlant de tout et d’autre chose.

Et puis il y a les insolites : un homme-rideau, le dodo du salon dont je vous posterai peut-être la photo un de ces prochains jours, et cette extraordinaire perle : le stand de Google, le seul stand du Salon du livre à être complètement fermé !!! La photo est réalisée sans trucage, mais c’était peut-être une blague, vu que Google n’était pas indiqué sur le programme, et on n’en sait rien vu que dedans il y avait juste des gens en costard et des ordinateurs portables. Mais quand même, ça vaut le détour par la porte de Versailles.

Figue fashion

Cette fois je crois qu’il va bien falloir me rendre à l’évidence : les figues sont à la mode. Ce n’est pas juste le prisme de mon obsession qui fait qu’il y a des figues partout, les figues sont vraiment dans l’air du temps.

Déjà, la couleur : le vieux rose et le violet ont été à la mode tout l’hiver, c’était une catastrophe, je m’achetais des fringues tout le temps. Et puis, il suffit d’entrer dans un magasin : on trouve des barres de céréales aux figues, au moins 3 marques de gel douche aux figues, et même du baume à cheveux aux figues.

Et il faut voir tous ces produits vanter les mérites de la figue : et qu’elle est nutritive, et qu’elle est riche, et qu’elle est jolie, sucrée, subtile, et que sais-je encore.

Et puis comble du comble, hier j’ai trouvé des bas résilles couleur figue !!! Vous y croyez vous ! Et c’était écrit dessus ! J’en ai acheté une paire, l’avantage, c’est que c’est assorti à l’ensemble de ma garde-robe.

Joyeux figobloguiversaire

Eh oui, un an, déjà !

Pour fêter ça, un petit message de service : pour ceux qui n’auraient pas remarqué (apparemment ils sont nombreux) il y a maintenant un fil RSS en HTML. Grâce à ce fil, vous pouvez avoir une version lisible de mon blog, et même avec les liens cliquables, sans jamais passer par ici, avantage immense qui vous évitera d’avoir a subir mon horrible feuille de style rétro (mais moi je l’aime bien, hein, ce design).

Tiens à propos, elle ne va plus faire très long feu, cette feuille de stye, je suis en train d’en couver une nouvelle, et cette fois je laisserai mon geek travailler, il fait ça tellement bien.

Bon et à part ça, il y a aussi un fil RSS des commentaires grâce auquel vous pourrez suivre les parcimonieux commentaires des rares visiteurs de mon univers figuesque.

Et puis ceux qui n’auraient pas changé l’adresse de leurs fils depuis que j’ai un nouveau nom de domaine (vous, là, dans Bloglines ! Je vous ai vus !), actualisez :

Mise à jour :

Et voilà le gâteau aux figues pour Hubert… Avec plein de bougies…

L’information n’est pas connaissance

Quand on fait une recherche dans Google.com, en la faisant précéder par exemple du mot "books", on se voit maintenant proposer l’accès à des références issues de google print, une à trois en général.
Si on clique sur la référence en question, on arrive sur une page de consultation d’un livre, avec au centre, la page où se trouvent les mots cherchés, surlignés en jaune, avec la possibilité d’avancer ou de reculer de trois pages. A gauche, on voit la couverture du bouquin et quelques liens qui permettent de relancer une recherche dans l’ouvrage ou d’aller sur Amazon et dans quelques autres librairies.

Google’s mission is to organize the world’s information

(la mission de google est d’organiser l’information du monde) nous dit-on sur la page de présentation de Google print. Et c’est bien de cela qu’il s’agit, en effet.
Cette recherche plein texte, lancée sur des pages et des pages de livres numérisés, nous permet de faire sortir du lot au maximum trois résultats, quelle que soit la requête. La consultation des mots trouvés donne accès à un ensemble qui fait au maximum six pages.
Somme-toute, qu’a-t-on obtenu par cette requête ? Dans le meilleur des cas, l’information que ces mots figurent dans un ouvrage que vous pouvez par ailleurs acheter. Je vous souhaite de ne pas vous intéresser aux figues (figs) car Google choisira pour vous, au hasard (???), trois livres qui contiennent selon toute vraisemblance des illustrations (figures, abrégé "figs"…)

Il faut relire Borgès et sa fameuse Bibliothèque de Babel, composée de livres tous identiques (410 pages, quarante lignes par page) qui constituent toutes les combinaisons possibles de caractères des 25 alphabets connus. Cette bibliothèque qui contient virtuellement tous les livres possibles, et parmi eux, probablement, le catalogue de la bibliothèque, les hommes cherchent à la comprendre et à y découvrir les phrases qui ont un sens, car

pour une ligne raisonnable, pour un renseignement exact, il y a des lieues et des lieues de cacophonies insensées, de galimatias et d’incohérences.

La bibliothèque de Babel, elle est « éclairée, solitaire, infinie, parfaitement immobile, armée de volumes précieux, inutile, incorruptible, secrète ». Destinée à survivre à la fin de l’humanité, elle brille par son immensité, sa perfection, et son absurdité.

Tout ça pour dire qu’une bibliothèque (qu’elle soit numérique ou non) n’est pas seulement un lieu où on entasse de l’information pour lancer des recherches dessus. Les deux outils essentiels de la bibliothéconomie, que sont la politique documentaire et la classification, permettent de mettre chaque ouvrage dans un contexte particulier. Dans une bibliothèque, un livre ne peut pas être compris s’il est isolé. Par exemple, la présence de Mein Kampf n’a pas le même sens dans la bibliothèque municipale de Vitrolles au rayon "société" que dans une bibliothèque spécialisée dans l’histoire du XXe siècle au rayon "idéologies" (l’exemple est un peu extrême, et bien sûr fictif, mais assez parlant).
La mise en contexte des ouvrages, dans une bibliothèque, est donc essentielle. Cela signifie que l’on ne s’intéresse pas à un livre parce qu’il contient certains mots, mais parce qu’il contient des idées, une argumentation, une analyse, et parce que cette analyse s’articule avec d’autres livres, qui la coroborrent, la contredisent, l’analysent à son tour.

La mission des bibliothèques n’est pas d’organiser l’information, elle est d’organiser la connaissance : celle qui est produite par les auteurs. Et l’organisation de la connaissance permet de donner du sens à la collection, qui elle-même génère à son tour, par l’intermédiaire des chercheurs qui l’utilisent, de la connaissance.

Je terminerai par une citation de T.S. Eliot (Choruses from the Rock, 1934) :

Where is the wisdom we have lost in knowledge?

Where is the knowledge we have lost in information?

Où est passée la sagesse que nous avons perdue dans la connaissance ? Où est passée la connaissance que nous avons perdue dans l’information ?
L’Internet de demain sera-t-il la bibliothèque de Babel ?

Mise à jour :

Vous avez vu ça, chez Libé ils sont d’accord avec moi :

Les DRM ne sont pas « cool »

La première fois que j’ai entendu parler de Cory Doctorow, j’ai bien ri en lisant ce qu’il était allé raconter chez Microsoft sur les DRM . Non pas parce que c’était drôle en soi, mais parce qu’il avait une façon vraiment réjouissante de présenter les choses (surtout face à Microsoft).

Bref. Le revoici, toujours aussi virulent, dans un texte qui explique les méfaits des DRM pour les pays en voie de développement. Un texte intéressant et effrayant.

En parlant de ce sujet épineux devant une assemblée d’archivistes il y a peu, je me faisais la réflexion qu’il y avait encore du travail à faire, dans les institutions de conservation en France, pour susciter une réelle prise de consience. Les mesures techniques de protection des droits sont menaçantes pour le domaine public et pour l’accès aux documents – en particulier pour des documents qui n’ont absolument rien à faire gagner à qui que ce soit en étant verrouillés.

Ceci dit, j’ai l’impression que les choses ne sont pas forcément beaucoup plus claires aux Etats-Unis, confère ce billet sur Librarian.net, qui trouve que les bibliothécaires de la NY Public Library ne sont pas "cool" à cause des restrictions qu’ils mettent sur l’utilisation des documents.

Or, si on regarde de plus près lesdites restrictions , on s’aperçoit qu’elles concernent exclusivement la réutilisation des images à des fins commerciales. Je ne trouve pas, pour ma part, que ce soit une marque de manque d’ouverture que d’avoir de telles restrictions. C’est toujours rageant de voir que des images diffusées gratuitement grâce à des fonds publics sont revendues sous forme de CD-rom hors de prix par des éditeurs peu scrupuleux. Ce type de restriction juridique est donc à mon avis justifié, et d’ailleurs il rappelle la licence Creative Commons, dont l’objet est justement de permettre la diffusion la plus large possible des oeuvres tout en respectant leur auteur et le choix d’ouverture fait par celui-ci.

En suivant les liens, j’ai aterri sur cet article dans lequel un archiviste met en relation les notions de valeur des documents (ici les documents d’archives ou les manuscrits), de mission de service public et d’exploitation économique des fonds (par la revente de reproductions par exemple). Je ne l’ai pas lu en entier mais ça a l’air intéressant.

Merci à Open Access News pour le premier clic.

Les FRBR, qu’est-ce que c’est ?

Dans le contexte de la société de l’information, beaucoup de gens, et notamment les geeks, pensent qu’ils ont des choses à apprendre des bibliothécaires, car ces derniers ont une certaine expérience dans des domaines devenus clef : le catalogage, la classification, l’indexation. Pour faire ouvert, dites : les métadonnées, le Web sémantique, les ontologies. Ah, je vois une lueur d’intérêt dans votre oeil…

Or, pour gérer des données, ces gens-là (les geeks) travaillent de la manière suivante : ils font de la modélisation, puis des spécifications, et enfin ils implémentent. Nous, pauvres bibliothécaires et catalogueurs, le nez dans le guidon trop souvent, nous avons commencé par créer un format d’implémentation (MARC), s’appuyant quand même sur une norme (l’ISBD). Mais mieux vaut tard que jamais, nous avons fini par faire la modélisation et les spécifications de nos données bibliographiques : ce sont les FRBR.

Les FRBR (Functional Requirements of Bibliographic Records, en français : spécifications fonctionnelles des notices bibliographiques) sont une modélisation conceptuelle de l’information contenue dans les notices bibliographiques.

Comment ça marche ?

Je vais essayer de résumer le contenu des spécifications bien que ce soit un véritable défi.
En gros, les FRBR organisent les différentes composantes de la description bibliographique (les autorités, les accès sujet et les informations sur le document proprement dites) en trois groupes d’entités reliées ensemble par des relations.

Le premier groupe d’entités regroupe tout ce qui concerne les documents et leurs différentes versions. Ces entités sont :

  • oeuvre : une création intellectuelle ou artisitique déterminée (par exemple : Germinal de Zola)
  • expression : une réalisation de cette création intellectuelle (par exemple, la traduction anglaise de Germinal par Roger Pearson)
  • manifestation : la matérialisation d’une expression (par exemple, Germinal de Zola, traduit par Roger Pearson et publié chez Penguin Books en 2004)
  • item : un exemplaire isolé d’une manifestation (par exemple, l’exemplaire de Germinal de Zola, traduit par Roger Pearson et publié chez Penguin Books en 2004, qui se trouve à la bibliothèque municipale de Perpignan).

Ainsi, une oeuvre peut avoir plusieurs expressions (différentes langues, une adaptation cinématographique… encore que dans ce cas on peut considérer qu’il s’agit d’une nouvelle oeuvre) qui elles-mêmes ont plusieurs manifestations (une édition en gros caractères, une version en K7 et une en DVD) composées chacune d’items.
La grande originalité du modèle, c’est la notion d’oeuvre, qui permet de rapprocher par exemple un roman et ses traductions ou adaptations, ce que nos catalogues sont incapables de faire sauf avec un rebond par titre (si le titre est le même) ou par auteur.

Le second groupe d’entités correspond à la modélisation des "autorités", les personnes qui ont une responsabilité dans la création des entités du groupe 1. Il y en a deux sortes : les personnes, et les collectivités.
Ici, ce qui est intéressant, c’est la notion de relation introduite pour marquer la façon dont les personnes interviennent par rapport à l’oeuvre-expression-manifestation-item. Parmi ces relations, on peut trouver celle de production ou création bien sûr, mais aussi, par exemple, celle d’appartenance (pour dire à qui appartient un item).
Encore une fois, ce type de relations (toutes les oeuvres d’un auteur, tous les items qui appartiennent à une bibliothèque, toutes les manifestations produites par un éditeur) existent dans nos catalogues mais dans une forme bridée, guère exploitable sauf par les « rebonds » permis par les notices d’autorité.

Le troisième groupe regroupe des entités qui sont le sujet des oeuvres : concept, objet, événement, lieu. La relation de sujet (par exemple, un événement est sujet d’une oeuvre) peut aussi fonctionner avec le groupe 2 (une personne est sujet d’une oeuvre, dans le cas d’un livre sur Zola) et le groupe 1 (une oeuvre est sujet d’une autre oeuvre, dans le cas d’un livre sur Germinal de Zola).

A quoi ça sert ?

On a pu reprocher aux FRBR d’être très orientées sur la description des oeuvres de fiction et pas très utiles pour le reste. Des applications comme le FictionFinder d’OCLC montrent bien l’intérêt des FRBR pour ce type de documents. C’est néanmoins un constat un peu sévère, pour ma part je pense que cette étape de modélisation aurait dû survenir bien plus tôt et elle aurait décuplé le potentiel de nos catalogues. Elle aurait aussi évité de les figer dans des formes rigides dont ils ont le plus de mal à se défaire.

On peut dire aussi que les FRBR sont un pas fait par les bibliothèques vers le Web et notamment le Web sémantique. En effet, les entités du groupe 3, en les qualifiant de relations entre elles, appelleraient inévitablement les ontologies ; celles du groupe 2 me font penser aux réseaux sociaux et à FOAF ; quant aux entités du groupe 1, elles pourraient apporter une réponse à la publication multiple et à la description des versions dans le domaine mouvant et multiple qu’est le Web.

Enfin, pour mes amis développeurs de logiciels libres, enfin de Lodel, (profitez-en tant que vous pouvez), je les invite à s’intéresser à ces histoires de relations qui vont dans tous les sens, avec des schémas vous verrez c’est mieux… Vous les trouverez dans le rapport final sur les FRBR ou sa traduction française accessible ici.

PS pour Patrick s’il passe par ici : j’espère que j’ai été fidèle à l’esprit FRBRien ; sinon les commentaires sont ouverts !