La collection numérique dans l’espace

Un des gros problèmes avec le numérique, c’est l’absence totale de perception spatiale qu’on peut avoir en entrant dans la collection. Or nous autres êtres humains, nous avons besoin de nous représenter notre environnement, et le sens que nous utilisons le plus volontiers pour cela, c’est la  »vue ». Avoir une vue d’ensemble d’une collection numérique, ce n’est pas un gadget, c’est complètement essentiel pour permettre d’appréhender sa nature, son contenu, sa forme et son potentiel. Un formulaire de recherche est un outil pervers qui nous permet de voir l’arbre mais pas la forêt. Il contribue fortement à faire du catalogue un espace sans âme et d’une complexité décourageante.

La première possibilité pour rétablir la perception spatiale de la collection dans un univers numérique est d’utiliser la visualisation ou cartographie d’informations. Mais c’est très compliqué à mettre en place d’un point de vue fonctionnel à cause du manque d’habitude de manipulation de ces outils. Ils perturbent, ils dérangent et finalement quand on creuse un peu on tend à les vider de leur sens (comment on peut avoir cette idée-là et en quelques
séances de travail en arriver ?) Bref c’est pas mûr, et on ne sait même pas si les utilisateurs sont murs eux-mêmes, donc retour à la case départ.

Quand je cherche dans Yahoo et qu’il me répond qu’il y 442 000 figues sur le Web, même s’il m’est humainement et techniquement impossible de parcourir les 442 000 résultats j’ai une idée approximative de l’espace qu’occupent les figues dans le Web.
De façon approchante mais plus bibliothéconomique, on peut utiliser les classifications. Cela revient à montrer le nombre d’étagères de livres qu’il y a derrière une requête : non pas que nous espérions que les lecteurs soient capables de regarder chacun des « dos » qui se présentent à eux, mais cela peut leur permettre d’appréhender la collection. Plus celle-ci grossit, plus on s’approchera d’un phénomène semblable à celui des moteurs de recherche du Web : une indication approximative sur le nombre de livres qui se cachent derrière chaque entrée thématique.
Les classifications à facettes sont intéressantes parce qu’elles permettent de combiner des étagères ensembles pour obtenir un résultat plus petit, donc humainement perceptible. Mais sur de la numérisation de masse, même en combinant, on aura à la fin d’énormes étagères.
Non pas que ce soit un problème à mes yeux. Mais cela perturbe énormément certaines personnes de la profession, qui ne doivent pas être habituées à devoir faire le tri dans de grosses masses d’information.

Dans l’article sur l’arbre et la forêt que je citais au début, on nous propose un troisième outil : le text-mining. Le « clustering », la visualisation de relations sont des outils qui peuvent nous aider à avoir cette « perspective de haut niveau » sur la collection numérique.
Je ne résiste pas à l’envie de citer la partie de l’article qui dit qu’il vaut mieux être accompagné d’un professionnel de l’information pour s’engager sur la route du text-mining :
Information professionals are natural partners for text mining because of their existing skill sets. At the top of the list is their knowledge and experience with the “information highway” and their ability to place information tools in context. Furthermore, they are knowledgeable about available products and information-retrieval techniques. Good information professionals have a blend of analytical and creativity skills, are adept at problem solving, and excel at dealing with ambiguity. Finally, information professionals have developed excellent consultative and listening skills and the ability to adapt and try different approaches to problems.
Ca devrait faire plaisir à mon geek.

A la fin de l’article, il y a un encadré pour les bibliothécaires avec le jargon à prendre en main pour se mettre à niveau en text-mining : chers lecteurs, si vous y voyez des mots nouveaux, c’est que vous pouvez encore creuser pour explorer la mine.