Dans la suite de ma réflexion sur les outils de consultation de bibliothèque numérique, je me suis intéressée au problème du calcul de pertinence lorsqu’on veut interroger en même temps des données structurées (par exemple, des notices de catalogue) et du plein-texte.
C’est (encore) à la California Digital Library que j’ai trouvé la solution à mes problèmes, et en particulier dans le Melvyl recommender project.
Ce projet avait dans un premier temps pour objectif de montrer qu’on pouvait indexer des données structurées avec un outil de type "plein texte" (par opposition à une base de données). Pour cela, ils ont réuni quelques millions de notices, et les ont indexées grâce à XFT, un framework open source basé sur Lucene. Ca a donné un prototype assez intéressant, en particulier du point de vue de la FRBRisation des notices.
Dans une seconde phase, ils se sont demandé ce qui se passerait si à ces belles métadonnées ils ajoutaient de grosses quantités de plein texte dans des formats et des niveaux de qualité hétérogène. Ils ont donc injecté, en plus des notices, 18000 documents plein texte incluant des PDF, de l’OCR « brut » (non corrigé) et de la TEI (entre autres) et ont recommencé le petit jeu.
Le résultat de leurs cogitations, et les solutions pour faire une indexation réussie de matériel hétérogène et réparti dans une bibliothèque numérique, figure dans le rapport de la 2e phase. Le plus intéressant à mon sens est
- la mise en place de la FRBRisation à la volée (ça fait classe de dire FRBRisation, mais en fait c’est une sorte de dédoublonnage amélioré)
- le paramétrage de Lucene pour que l’algorithme de pertinence prenne en compte la qualité des métadonnées et évite « d’écraser » sous des tonnes de plein texte des résultats qui auraient une occurrence pertinente dans le titre ou l’auteur.
Ca peut paraître technique, mais il me semble difficile de croire qu’on va pouvoir numériser à tour de bras et OCRiser à tour de bras, sans se demander comment on va faire pour trouver quelque chose là-dedans à la fin. Même si on a l’intention d’utiliser un moteur du marché comme Fast, à l’exemple des allemands de Bielefield. Sinon il faudra s’en remettre à eux ;-)
Merci, mais alors merci, à FRBR blog qui n’imagine pas à quel point il m’a rendu service avec ce billet.
A noter, à propos de la FRBRIsation à la volée, un post de Thom Hickey (OCLC) qui fait remarquer, à mon avis à juste titre, que les systèmes qui attribuent des « points » sont souvent difficiles à manipuler. On finit par ne plus trop savoir pourquoi ni comment tel bouquin se retrouve regroupé avec tel autre.
Il préfère un système, qui rappèlera leurs études de philo à certain, de « tables de vérité ».
C’est vrai que ça semble plus clair.