Moteurs de recherche et données structurées

Il y a toujours un livre dans mon moteur.

Voyons ce qui se passe en Australie quand on travaille sur l’indexation des données structurées, en s’appuyant sur des fonctionnalités propres aux moteurs de recherche : lisons l’article Relevance ranking of results from MARC-based catalogues : from guidelines to implementation exploiting structured metadata par Alison Dellit et Tony Boston, bibliothèque nationale d’Australie, février 2007.

Il y est question de Libraries Australia, un genre de super catalogue collectif australien, dont l’objectif est de devenir aussi courant pour les Australiens que Google ou Amazon… a challenge.

Premier point : la pertinence. On a pris l’habitude de voir arriver en premier les résultats les plus intéressants. Contrairement aux bibliothécaires qui éprouvent le vertige des chiffres, les usagers ne remarquent même pas qu’on leur présente des milliers de résultats. Ils prennent les premiers.
Pour une bibliothèque ce n’est pas aussi anodin qu’on pourrait le croire de calculer la pertinence des résultats. On peut toutefois s’appuyer assez tranquillement sur les données structurées des notices bibliographiques pour ce faire :

Matches in the title, author and subject fields, and those fields which describe the format, nature or form of the item, are more important than general matches within the record.

Matches in multiples of the above fields are more important than matches in just one of those fields.

Et ainsi de suite.

Second point : les ensembles, regroupements, paquets de données en tout genre.
Partant du principe qu’il est difficile d’anticiper ce qu’un usager a vraiment voulu chercher en tapant sa requête, on va lui proposer plutôt de l’affiner après. Pour lui faciliter la tâche, on lui fait un certain nombre de propositions qui vont lui éviter d’avoir à saisir dans un formulaire compliqué le complément de sa question : juste quelques clics.
Ces propositions s’appuient, je vous le donne en mille, sur des données structurées. On affiche quelque chose qui ressemble à de la navigation à facettes, comme dans Worldcat.

Troisième point : recommander.
Une fois que notre lecteur a trouvé son bonheur, on lui en propose d’autres. Pour cela on utilise… des données structurées, oui, certes, mais également des tags, attribués par les utilisateurs.

Pour que tout ceci puisse marcher, il faut rassembler de grandes quantités de données structurées et s’appuyer sur des protocoles ouverts (comme SRU/SRW, ou Opensearch, cités dans l’article).
Le résultat : 48 millions de notices dans un prototype basé sur Lucène, qui classe les résultats, les FRBRise, propose du RSS, interroge Google books search, complète les requêtes par des recommandations, présente des facettes, classe en Dewey et extrait des mots-clefs. Voir ce que ça donne par exemple avec notre ami Newton. C’est remarquable, ça ressemble au rêve qu’on avait en faisant Europeana mais le temps nous a manqué, espérons qu’on le rattrapera.

Lorcan Dempsey aussi a lu cet article, et a aimé.