Format du 3e millénaire

Imaginez un format d’images ouvert, avec un excellent taux de compression mais sans pertes. Imaginez que ce format permette de stocker aussi bien des métadonnées descriptives que techniques et des métadonnées de préservation à l’intérieur même du fichier. Imaginez enfin que ce format permette de stocker dans le même fichier plusieurs résolutions d’une image pour gérer différents affichages ou des fonctionnalités de zoom.

Ce format il existe, c’est le Jpeg2000.

Pour en savoir plus sur le Jpeg2000 et son implantation dans les bibliothèques et les archives, un nouveau site vient d’être créé : JPEG 2000 in Archives and Libraries.

En fait, ce qui est intéressant dans ce site outre son sujet, c’est que c’est un blog (même s’il ne dit pas son nom). Il se propose aussi d’ouvrir un espace de blog personnel pour les particiapnts, mais ce n’est pas encore très actif de ce côté. Et bien sûr, il dispose d’un fil RSS.

Merci à Digitization blog.

Outils d’extraction de (méta)données

Aujourd’hui, je me suis beaucoup amusée avec deux de ces merveilleux outils qui permettent de rentrer un ou plusieurs fichiers, et de sortir complètement autre chose (en général, du XML, sinon où est l’intérêt…) Je trouve cela particulièrement réjouissant.

MARCXML converter est comme son nom l’indique un convertisseur de fichiers MARC (en sortie ISO 2709) en xml suivant le schéma MARCXML. Evidemment, il faut des notices MARC21 en entrée, sinon ça marche pas.

Dans un autre genre, la National Library of New Zealand propose en téléchargement son Metadata extraction Tool en version stable. Mais à quoi cela sert-il, me direz-vous ? Cela sert à extraire les données contenues dans les en-têtes de fichiers TIFF, JPEG, PDF, BMP, Open Office, Word, et bien d’autres. Mais à quoi cela sert-il, me direz-vous encore ? Parmi ces informations, on trouve un certain nombre de données sur le fichier (son auteur, sa date de création, etc) ainsi que des données techniques nécessaires pour la conservation à long terme (le format, la taille, etc) – l’objectif de la NLZ. Grâce à l’outil d’extraction, on peut obtenir des sorties en XML de ces données, pour un fichier ou pour plusieurs à la fois (ce qu’on appelle les objets complexes). Apparemment il est assez simple de changer le schéma XML de sortie pour mettre celui qui nous fait plaisir, ce qui fait de cet outil une vraie perle.

Tous deux fonctionnent avec une machine Java récente et doivent être installés (mais ils sont faciles à utiliser et à installer sous Windows).

Dans le genre outil magique, il y a aussi le Servoo qu’utilise Lodel pour convertir les fichiers Word ou Open Office en XHTML, et en plus, lui, il fait ça en ligne à distance ! Mais à force que tout le monde en parle, ça commence à se savoir.

Google scholar et au-delà

La sortie de Google scholar a fait à peu près autant de bruit dans la blogosphère qu’un coup de gong, et j’hésitais à me lancer dans le chorus général car je ne voyais pas trop quoi apporter de plus. J’ai donc décidé d’attendre que le soufflet retombe un peu mais je crois en effet qu’il serait dommage de ne pas en parler du tout.

Google scholar est un outil assez époustouflant. Si on cherche des ressources dans un domaine « académique » quel qu’il soit, surtout anglophone mais pas seulement, il ne nous déçoit pas et fournit la même profusion de ressources que Google tout court.

Il fait un pas de plus dans la classification des ressources, en différenciant les références d’articles (citations), les articles en pdf, les livres.

Il fait un pas de plus dans la description bibliographique, en donnant dès le premier écran, le titre mais aussi l’auteur, la date, la source, les différentes versions.

Il fait un pas de plus dans la mise en contexte, en donnant le nombre de citations connues pour chaque référence, et en permettant d’afficher ces citations avec leurs propres citations.

Il fait un pas de plus dans la localisation, en proposant, pour les livres, de les trouver dans une bibliothèque, voire dans votre bibliothèque s’il identifie d’où vous vous connectez.

Bon, allez, je l’avoue, la première fois que j’ai testé Google scholar, je me suis dit, oups, vite, je dois trouver un autre métier ! Je pense finalement qu’il serait bon de relativiser cet emportement. Il y a quand même des limites, les mêmes que depuis toujours, la principale étant l’opacité de Google scholar. Quelles ressources indexe-t-il ? quel algorithme utilise-t-il pour les classer ? Et la stratégie googelienne de plus en plus englobante d’omniprésence n’a rien de rassurant.

Et puis, une des choses qui me frappe le plus, c’est le déferlement d’outils dérivés que crée la sortie de ce nouveau moteur. On connaissait déjà les outils développés par Ingenta, et le comparateur de recherches de Peter Jasco. J’ajouterais une extension pour Firefox qui utilise OpenURL pour lier les notices (oui, maintenant je pense qu’on peut dire ça) de Google scholar au plein texte des articles, extension qu’on peut adapter à son propore résolveur OpenURL au prix d’un peu de geekerie (merci à Library Stuff). Et encore le bookmarklet de visualisation qui permet d’avoir une vue graphique des articles citant une référence (merci à Open Access News).

Ma conclusion, toute personnelle, c’est que Google scholar est sans aucun doute un outil formidable. C’est aussi et peut-être surtout, le « bruit du gong », celui qui va nous réveiller, nous sortir de nos acquis, nous rappeler que non, nous n’avons pas fait le tour de la question du signalement des ressources validées, et que non, nous ne pouvons pas nous passer de l’innovation permanente et quotidienne qui conditionne notre survie.

Les feuilles mortes se ramassent à la pelle

C’est très pénible d’être obligé de regarder son écran de travers tellement on a le nez bouché (ben oui, le fait de pencher la tête permet de déboucher au moins partiellement mais bonjour l’ergonomie du poste de travail). Donc vous ne m’en voudrez pas si je fais court et mélangé.

  • voici un truc avec plein de ressources sur l’expérience utilisateur. A première vue on dirait un blog mais non. Ca s’appelle DeyAlexander parce que le type s’appelle Alexander Dey, ce qui prouve que dans la vie avoir un nom qui jette c’est pratique, ça évite d’avoir à se creuser.
  • voici un autre truc très marrant, à première vue on dirait un wiki mais en fait non. On peut s’amuser beaucoup avec le javascript et en fait ce n’est qu’une page HTML statique. Enfin j’aime bien la navigation, c’est original.
  • Le dernier Journal of Digital Information a pour thème : "Digital Libraries and User Needs". On y trouve des articles intéressants sur la participation des utilisateurs au design (lire "à l’architecture de l’information") d’un site de bibliothèque numérique. En particulier, il y a un article sur un test utilisateurs concernant l’OAI.
  • On apprend que Yahoo rejoint Google dans le projet d’indexation de WorldCat – c’est le projet qui nous vaut le petit outil dont je parlais l’autre jour.

Bon j’arrête avec ma liste décousue. Je pense avoir à peu près éclusé tout ce que j’avais mis de côté ce week-end… Et merci au fait à : Infodesign, à Fred Cavazza et à Library Stuff J’espère que ça ira mieux demain, et je vous promets plein de trucs intéressants et de question existentielles avec des réflexions et même peut-être un effort rédactionnel qui sait.

L’ISBN magique

Il était une fois un pauvre petit numéro à plein de chiffres qui s’appelait ISBN . Ce petit numéro était très malheureux car, bien que tout le monde le connaisse et passe son temps à le noter partout, il ne se sentait pas vraiment utile.

Un jour, l’ISBN décida de partir de son pays qui s’appelait Métiers-Du-Livre, et d’aller découvrir le monde. Il arriva bientôt au Pays-des-Zéros-et-des-Uns, aussi appelé Machine Readable Land. Or donc, dans ce monde, il fut immédiatement reconnu pour ce qu’il était : un identifiant pérenne unique, extrêmement utile !

Plusieurs des habitants les plus puissants de ce pays, parmi lesquels on peut citer Google et Amazon, décidèrent de l’adopter et de lui confier certaines de leurs adresses. Alors ils vécurent heureux et ils eurent beaucoup d’enfants !

Plus sérieusement, l’ISBN a donné naissance à quelques outils d’intérêt, enfin, surtout pour les machines et pour les bibliothécaires (non nous ne sommes pas des robots) :

  • xISBN, un outil qui permet à partir de l’ISBN d’un document de trouver automatiquement des documents en relation
  • un bookmarklet pour transformer en un clic toute page contenant un ISBN dans son URL en notice de WorldCat
  • un outil qui utilise Google uniquement pour rechercher dans des résumés de livres (en papier) que celui-ci propose désormais.

C’est fou tout ce qu’on peut faire avec un ISBN de nos jours ! Dommage que tout ceci ne concerne que le domaine anglo-saxon (évidemment !) Merci à Catalogablog et à Open Access News

Quelques outils…

… et j’en ai pour tous les goûts !

Pour votre aggrégateur, deux ressources d’intérêt techno-bibliothéconomique avec leurs fils :

  • E-LIS, une archive ouverte en science de l’information, qui contient des articles en anglais, en espagnol, en italien, en polonais et même en français, RSS
  • le site d’ERPANET (Electronic Resource Preservation and Access Network) a maintenant son fil RSS (merci 10kyblog)

Pour vos bookmarks, deux resources tirées d’Erpanet justement, les « papiers » de deux rencontres :

Enfin, un petit outil qui devrait réjouir les bloggers, les geeks, les bloggers-geeks et les bibliothécaires qui pensent encore que la validation des sites Web se fait avec des grilles et des cases à cocher… URLinfo. Mode d’emploi :

  • tapez l’URL du site qui vous intéresse
  • cliquez sur tout les boutons
  • et vous saurez tout sur ce site, le WhoIs du nom de domaine, le nombre de liens entrants selon Google, selon Yahoo, les sites similaires, etc, etc. Vous pourrez aussi faire une recherche dans le site, le valider W3C et tout ce que vous voudrez, le traduire dans la langue de votre choix, chercher les fils RSS et les aggréger dans Bloglines, le convertir en HTML s’il est en flash ou en PDF… Et j’en oublie.

Bref, l’essayer, c’est l’adopter !!!

Les sept différences

Faisons un jeu…

Soient deux glossaires sur le jargon du Web et du document numérique : l’un publié par California digital Library, l’autre par la Society of American archivists. Outre ce que ces deux outils ont d’intéressant pour comprendre tous les termes obscurs et de surcroît anglophones qui jalonnent nos métiers, ils sont aussi un amusant reflet de la différence entre le métier d’archiviste et celui de bibliothécaire.

Par exemple, le terme "dark archives", pour les bibliothécaires :

An archive that is inaccessible to the public.

et pour les archivistes :

A collection of materials preserved for future use, but with no current access.

On est d’accord, c’est la même chose… mais focalisé autrement.

En généralisant honteusement, on pourrait dire que les définitions bibliothéconomiques sont simples, tandis que les définitions archivistiques sont précises. De fait, les permières sont pratiques, immédiatement utilisables, tandis que les secondes font référence.

Merci pour cette info à Ten Thousand Years Blog, un blog qui compte exister encore en l’an 12000 ; et à Diglet, un blog qui essaye déjà d’exister aujourd’hui… (devinez lequel est un blog d’archiviste ;-)

Histoire du livre

Le début de mes pérégrinations estivales m’ayant entraînée vers le sud, j’y ai découvert quelques ressources qui pourraient intéresser les "techie historiens du livre" en admettant que cette catégorie existe.

Bibla Sacra est un site consacré aux Bibles publiées à l’époque moderne aux Pays-Bas. C’est en fait une "bibliographie électronique" qui vise à donner un maximum d’informations sur ces Bibles (jusqu’en 1553 pour l’instant). A noter, pas mal de valeur ajoutée pour l’histoire du livre et de belles images numérisées (notamment des gravures sur bois).

La Bayersiche Staatsbibliothek mettra en ligne en août son catalogue d’incunables, un catalogue très détaillé concernant plus de 10000 éditions, une référence.

Et maintenant, le Figoblog est en vacances, pas de blogging avant la semaine prochaine et peut-être au-delà !

Valse bibliothéconomique

Pour ceux d’entre vous qui ne seraient pas encore partis voir le feu d’artifice au bal des pompiers, voici une petite confiture de ressources bibliothéconomiques, sans grand rapport entre elles.

Pour comprendre le jargon du métier, en anglais : ODLIS (pour Online Dictionary for
Library and Information Science), et en français mais pas en ligne (on ne peut pas tout avoir), le Vocabulaire de la documentation de l’ADBS.

Côté blogs, l’Unesco a mis sur son portail une liste de blogs bibliothéconomiques, pas seulement en anglais (ça change).

Enfin, une petite ressource NISO (en pdf) : comprendre les métadonnées, ou tout ce que vous avez toujours voulu savoir sur DC, TEI, METS, MODS, EAD, ONIX et bien d’autres, résumé en 20 pages (un document qui s’adresse peut-être plutôt aux "décideurs" qu’aux gueux qui ont les mains dans le cambouis, m’enfin on sait jamais, ça peut servir…)

Merci à RessourceShelf, à Juriblog et à It’s all Good d’aider à occuper les tristes jours fériés, car comme disait l’autre, "le jour du 14 juillet, je reste dans mon lit douillet"…

Yahoo plus rapide que Google ?

RessourceShelf suivi de près par Constellation W3 signalent cette info : Yahoo indexe désormais le catalogue WorldCat d’OCLC.

Yahoo aurait indexé deux millions de notices en moins d’un mois, alors que Google qui a commencé il ya six mois n’en serait qu’à 500000… Yahoo deviendrait-il un partenaire (plus) fiable pour les bibliothèques ?

Tiens, puisqu’on parle d’OCLC, surtout ne manquez pas de visiter It’s all good, un blog tenu par les trois auteurs du OCLC environmental scan pattern 2003, c’est sympa et riche (et au fait, si vous ne connaissez pas le scan, courez, courez le lire !)