Web sémantique, FRBR et RDA en tournée dans toute la France

Depuis quelques mois, bien que tenue à l’écart de l’évolution des normes de catalogage par d’autres activités, j’ai eu la chance de participer au tour de France entrepris par quelques collègues sous l’égide du CNFPT pour présenter « les catalogues au défi du Web ». Nancy, Montpellier, Dunkerque, Angers, plus deux journées sur un thème similaire organisées à Reims et Strasbourg par Médial et une excursion aux journées RNBM à Marseille : on peut dire qu’on a sacrément bourlingué.

Au programme, parmi les sujets évoqués, on a parlé du projet OpenCat réalisé par la BnF et la médiathèque de Fresnes, qui ont construit un OPAC (interface d’accès de catalogue) en ligne en s’appuyant sur data.bnf.fr et d’autres données du Linked Data (le prototype est maintenant consultable en ligne).
On a discuté des nouvelles règles du Sudoc qui visent à mieux préparer la FRBRisation et le passage à RDA, ou encore de la FRBRisation des thèses.
On a abordé Bibframe, l’initiative pragmatique (trop pragmatique ?) des américains pour faire évoluer les formats MARC. On a parlé du rapport du comité stratégique bibliographique sur l’avenir des catalogues en France, et des actions menées par le groupe EURIG pour faire évoluer RDA vers un code de catalogage vraiment international et pas seulement anglo-saxon.

Bref, autant dire qu’il y a trop de sujets intéressants et d’évolutions passionnantes pour tout faire tenir en un seul billet. Et puis c’est vrai que si j’ai continué à travailler d’arrache-pied sur le Web sémantique (avec un projet de livre en préparation !) je me suis un peu éloignée de ces sujets plus strictement bibliothéconomiques et je ne me sens pas vraiment très à la page pour en parler.

Pour ceux qui auraient raté ces rencontres passionnantes, sachez qu’une session de rattrapage est organisée par le CNFPT le 19 novembre prochain à Paris. Je serai là encore au rendez-vous, pour introduire le propos en expliquant ce que change le Web…

La culture, c’est notre Data

La semaine dernière a eu lieu la première rencontre « data culture » entre établissements du Ministère de la Culture sur le thème de l’open data. Faisant suite à la parution du Guide Data Culture, cette journée avait pour objectif d’initier la mise en place d’un réseau de professionnels intéressés par l’enjeu de l’ouverture des données au sein du ministère. L’après-midi, des ateliers ont permis d’agiter un peu nos cellules grises autour de cas d’utilisation.

Je vous laisse découvrir le storify de la journée qui a été abondamment twittée, et la petite vidéo qui résume l’essentiel du guide sus-nommé.

J’ai particulièrement apprécié la présentation d’Henri Verdier, le directeur d’Etalab et j’ai été assez frappée par le fait que les réutilisations proposées, aussi bien existantes qu’imaginaires, étaient quasiment toutes tournées vers le développement d’applications pour mobiles. Le nouvel El Dorado quoi…

Le titre de ce billet est spécialement dédicacé à Romain ;-)

Compte-rendu du séminaire IDPF

A l’occasion du Salon du Livre de Paris, j’ai eu la chance d’assister au séminaire organisé par l’IDPF (International Digital Publishing Forum) le 25 mars dernier. L’objectif de ce séminaire technique était de présenter aux éditeurs les fonctionnalités de l’ePub3 et les perspectives offertes par ce standard. Je rends compte ici de ce que j’ai pu y entendre.

L’IDPF est un organisme de normalisation dont le sujet de travail principal est la normalisation du format ePub. Le séminaire s’est ouvert sur une conférence introductive de Bill Mc Coy, directeur exécutif de l’IDPF, qui avait pour objet de démontrer entre autres que la distinction entre sites internet, applications natives et livres numériques a de moins en moins de sens aujourd’hui avec la mutualisation des moyens de développement entre ces plateformes. Il pose le constat que le modèle économique de l’application native ne fonctionne pas : elles coûtent trop cher à produire et les modalités de production ne sont pas scalables à l’ensemble du catalogue d’un éditeur qui publie plusieurs centaines ou milliers de titres par an. Il est donc nécessaire de faire évoluer ce mode de travail. Il est probable qu’à l’avenir on se dirige de plus en plus vers un format de contenus structuré qui sera réutilisable dans plusieurs contextes. L’ePub3 est appelé à jouer un rôle dans ce contexte grâce à la conjonction avec HTML5.

La présentation d’HTML5 était effectuée par Robin Berjon qui représentait le W3C (je m’excuse d’avance pour l’inexactitude probable avec laquelle je vais rapporter ses propos…) L’ePub3 était présenté par Daniel Weck du consortium Daisy (un organisme qui travaille sur l’accessibilité du livre numérique) (ses diapos en ePub dans le texte ici.)

HTML5 est plus une galaxie de normes qu’une norme unique. Il y a une centaine de spécifications liées entre elles qui incluent HTML5 proprement dit mais aussi d’autres standards tels que CSS par exemple (pour la mise en forme), Javascript, etc. L’ensemble est désigné sous le terme générique de « the Open Web Platform ».

HTML5 apporte de nouvelles fonctionnalités par rapport au HTML traditionnel :
– support natif de la vidéo et de l’audio : on n’a plus besoin d’installer un plug-in (ex. Flash) pour lire ces médias
– interactivité native grâce à « canvas », une sorte de langage qui permet de coder directement en HTML des applications interactive (jeux, 3D…) de même type que ce qu’on pouvait faire avec Flash
– de nouvelles fonctions de présentation (il semblerait qu’on puisse faire des ligatures grâce à HTML5 et CSS par ex. :-)
– le support natif de Ruby (utile pour les écritures japonaises et chinoises), MathML (pour les équations mathématiques) et SVG (images vectorielles qui permettent par exemple d’agrandir les images sans pixellisation)
l’amélioration des formulaires
– de nombreuses APIs qui permettent notamment d’interagir avec le terminal (dans le cas d’un terminal mobile cela permet de gérer par exemple l’orientation portrait/paysage, de détecter les vibrations, d’interagir avec le micro, la lumière ambiante, etc.)
– une meilleure sémantique de structuration de la page qui permet maintenant de distinguer un en-tête et pied de page, des menus de navigation, etc.

On le voit, toutes ces nouvelles fonctions de HTML5 sont extrêmement pertinentes dans le contexte d’un usage en mobilité et plus spécifiquement dans le contexte du livre numérique enrichi.
Dans la mesure où ePub3 est complètement basé sur HTML5, on dispose nativement de tout l’outillage nécessaire pour ajouter des médias, interagir avec des terminaux de lecture de type eReader / tablette, et structurer le contenu d’une manière cohérente avec les pratiques traditionnelles du livre (en séparant le texte lui-même du paratexte – titres, tables des matières, notes, etc.)

ePub3 est donc basé sur HTML5 mais vient également y ajouter un certain nombre d’éléments :
– l’empaquetage : en plus de l’empaquetage physique (un fichier ePub est en fait une sorte de « zip » qui contient plusieurs fichiers) il s’agit de déclarer toutes les composantes d’un paquet : navigation linéaire, table des matières, liste des pages physiques (permet des renvois depuis les références du livre imprimé)
– le paquet peut aussi contenir des métadonnées et inclure les polices spécifiques dont on a besoin pour la présentation. Cela permet à l’ePub d’être autonome et autodescriptif ;
– l’accessibilité : à l’origine le consortium Daisy travaillait sur son propre format XML pour les personnes en situation de handicap (le XML Daisy). Ils ont décidé de s’impliquer dans la normalisation d’ePub3 pour palier aux défauts d’accessibilité qui étaient ceux d’ePub2. Il est ainsi possible de synthétiser automatiquement une lecture audio à partir du texte en faisant appel à certaines fonctions de CSS (choix du type de voix, ajout d’un fichier de prononciation pour les termes ambigus par ex.)
– un système de liens performants, le système CFI (Canonical Fragment Identification) gère les notes de bas de page – qui deviennent d’ailleurs plutôt des pop-up dans ce contexte – et les tables des matières directement en HTML5 (en ePub2, il y avait un format distinct pour encoder la table des matières. Le fait qu’elle soit un simple fichier HTML permet de la présenter comme une page normale et pas seulement comme un outil de navigation)
– les méthodes de cryptage, de signature et de gestion des DRM.

A titre d’illustration de ces potentialités, un autre intervenant, Peter Meyers, nous a présenté trois exemples de livres numériques qui tirent tout le potentiel du média interactif :
The good man, une nouvelle interactive
Welcome to Pinepoint par Paul Shoebridge et Michael Simons (en Flash) qui fonctionne un peu comme un scrapbook multimedia
Fish, un essai de Robin Sloan conçu pour la lecture sur smartphone.
Il s’agit ici d’inventer de nouvelles modalités d’écriture et de lecture dans un monde numérique.

Luc Audrain d’Hachette a ensuite présenté la problématique de l’industrialisation de la production de livres numériques pour les gros éditeurs.
Il a commencé son exposé en notant que contrairement à une idée reçue, transformer un livre papier en livre numérique n’est pas une opération qu’on fait une fois pour toutes. Au contraire, il faut la répéter plusieurs fois : pour corriger des erreurs, pour prendre en compte des nouvelles versions du format, etc. L’industrialisation de la production est donc d’autant plus une nécessité.

Il nous propose ensuite une grille d’analyse matricielle permettant de différencier les types d’ouvrages en fonction de leur niveau de structuration et de l’importance de la mise en page :
– peu structuré, peu maquetté (ex. romans)
– très structuré, peu maquetté (ex. dictionnaires)
– très structuré, très maquetté (ex. livres de recettes de cuisine)
– peu structuré, très maquetté (ex. livres d’art).
Cette grille permet de faire un choix entre deux stratégies de conversion : les ePub adaptables (dont la mise en page se réorganise en fonction de la taille et du format de l’écran) et les ePub fixés (qui respectent strictement la maquette d’origine).
Le ePub adaptable est très immersif et adapté à la lecture linéaire. Interopérable, il peut être produit à partir d’un flux XML. Cependant, la mise en page est limitée.
Le ePub fixé respecte la maquette du papier ce qui permet des coûts de production très bas. Toutefois, on perd en accessibilité et on ne distribue que sur un nombre limité de plateformes.
Pour Luc Audrain, si on ne fait que du texte, cela ne vaut pas la peine de passer à ePub3 qui n’est pas encore largement supporté, il vaut mieux rester à ePub2.

Plusieurs chaînes sont possibles pour produire les ePub adaptables :
– export ePub direct à partir d’InDesign : nécessite une grande vigilance de base sur la conception du fichier InDesign et de reprendre les ePub à la main ;
– deuxième possibilité, on structure un fichier Word pour obtenir de l’XML. Ce fichier XML est ensuite utilisé pour générer le PDF imprimeur et une version XML du contenu. On stocke l’ensemble dans un système de DAM (Digital Asset Management). L’ePub peut être généré en sortie. Cette chaîne fonctionne si on travaille à partir du fichier remis par l’auteur : pour le rétrospectif, on doit repartir du PDF imprimeur, voir du scan+OCR de la version papier.

Pour l’ePub fixé, on part de la maquette du papier et on produit :
– soit du HTML5+CSS (on crée un cadre dit « viewport » et ensuite on positionne les blocs de texte et d’image en absolu)
– soit une image vectorielle (SVG) ce qui revient au même principe en utilisant une technologie différente. N’importe quel PDF peut être facilement transformé en SVG, mais ce format n’est pas toujours supporté dans les logiciels de lecture d’ePub
– soit par une simple image de type JPG (méthode à l’abandon car fournit une expérience de piètre qualité notamment quand on agrandit l’image). Toutefois il peut être utile d’intégrer l’image dans le HTML5 afin qu’elle puisse servir de présentation alternative si le format n’est pas supporté.

Les contenus fortement structurés sont de plus en plus souvent stockés dans une base de données. Des équipes éditoriales les préparent alors en vue d’en faire des publications : vers du papier, des applications, des sites web, des fichiers ePub. Il existe des outils sur le marché permettant de gérer ce type de chaîne. Les auteurs n’écrivent plus uniquement pour le papier mais produisent des contenus.

Enfin il reste évidemment possible de créer un ePub ex-nihilo. L’outil Bluegriffon par exemple est un éditeur Web wysiwyg pour HTML5 et il permet également de générer des ePub2 et des ePub3.

La dernière étape réside dans le contrôle qualité. Il existe des outils de validation comme ePubcheck pour la structure des fichiers ePub. Il faut ensuite procéder à une validation visuelle grâce à un lecteur d’ePub comme Readium.

Une présentation de Marc Bide, du consortium EDItEUR a permis de rappeler que les métadonnées jouent un rôle encore plus important pour le livre numérique que pour le livre imprimé, car elles sont l’unique moyen de trouver le livre pour l’utilisateur final. Elles sont donc capitales pour la chaîne de distribution, mais aussi pour la bibliothèque personnelle de l’usager : tous les ebooks embarquent un minimum de métadonnées à cette fin. Toutefois celles-ci ne sont pas toujours suffisantes : c’est quand même énervant quand on a tous les livres d’une série d’être obligé de regarder dans wikipédia pour savoir dans quel ordre les lire !

L’ISBN est important pour faire le lien entre l’ouvrage et ses métadonnées. Marc Bide rappelle qu’il est important de fournir des ISBN différents pour la version papier et pour la version numérique. En effet, l’ISBN sert à différencier les éditions et non à les relier. On fournit un ISBN différent pour chaque format entrant (ex. PDF et ePub) ; c’est par contre optionnel si on a différents formats de sortie (ex. ePub et Mobi).

EDItEUR a sorti en 2009 une nouvelle version d’Onix, Onix 3.0, qui est beaucoup plus adaptée au livre numérique que l’ancienne version Onix 2.1. Elle permet entre autres de décrire des contraintes d’usage associées à un livre numérique.

Pour l’IDPF, la problématique majeure aujourd’hui est de faciliter l’adoption de l’ePub3 qui n’est pas encore très largement supporté, et même quand il l’est c’est souvent de manière incomplète.
Le BISG (Book Industry Study Group) maintient un outil qui permet de savoir quelle plateforme supporte ou non quelle fonctionnalité d’ePub3 : le ePub3 support grid.

Pour pallier à cette problématique, les tenants de l’HTML5 et de l’ePub3 encouragent le développement en « fallback design » : c’est-à-dire un design qui s’adapte aux capacités des différentes plateformes.
Il en existe deux sortes :
– « graceful degradation » : le développement est effectué en visant les plateformes les plus performantes, mais si une fonctionnalité n’est pas supportée, des formats alternatifs sont proposés
– « progressive enhancement » : la version présentée par défaut est la plus basique, ensuite on teste en javascript l’environnement de l’utilisateur et on fournit progressivement les contenus plus avancés si la plateforme le permet.

L’IDPF s’implique également dans le développement de Readium, qui est considéré comme le logiciel de lecture d’ePub3 de référence. Le jour du séminaire, l’IDPF annonçait la création de la Readium Foundation, dont l’objectif est de fournir des briques logicielles pour accélérer l’adoption d’ePub3. L’un des moyens utilisés sera la création d’un Readium SDK que les développeurs pourront utiliser pour intégrer les fonctions de Readium dans leurs propres applications.

Le droit de ReLIRE

Je travaille dans l’édition.

Je sais, c’est curieux, certains d’entre vous se demandent s’ils n’auraient pas loupé le dernier rebondissement de ma vie professionnelle ; je vous rassure, au départ c’est juste une bizarrerie d’organigramme : au Centre Pompidou, le service qui s’occupe du site web est rattaché à la direction des éditions. Au départ, on coexistait un peu, les éditions et moi. Et puis petit à petit, à force de m’intéresser, de monter des projets ensemble, d’assister aux réunions de service, de plancher sur le budget, j’ai fini par avoir l’impression de faire quand même partie de la famille. Une famille proche, finalement, plus que le musée, d’une certaine manière.

C’est peut-être à cause de cela que je n’arrive pas à voir le projet du jour, le ReLIRE de la BnF, d’un mauvais œil. Je vous le décris juste en trois mots, la littérature sur ce sujet sur le Web est pléthorique, les points de vue contradictoires ne manquent pas.
L’objectif est de remettre dans le circuit de la commercialisation des ouvrages avant 2001, devenus indisponibles, mais qui sont encore couverts par les droits d’auteur. En général les droits d’auteur ont été cédés à un éditeur, mais il est d’usage, si celui-ci n’exploite plus l’ouvrage, que les droits soient rétrocédés à l’auteur. C’est dans la loi et en général c’est aussi précisé dans le contrat d’édition si celui-ci est bien fait. Et de toute façon, les contrats d’édition de cette époque prévoyaient rarement l’exploitation numérique (nous on a commencé en 2010).
Partant de ce principe, l’idée est de numériser en masse ces (nombreux) ouvrages indisponibles, afin de pouvoir les réinjecter dans le circuit de distribution sous une forme numérique. Tâche confiée à la BnF parce que d’une part, elle a un savoir-faire dans le domaine de la numérisation de masse, et d’autre part… les livres sont là, sur place, dans ses magasins.
ReLIRE propose un premier recensement de 60 000 œuvres, qui sera augmenté chaque année jusqu’à atteindre les 500 000 estimées. Les auteurs peuvent dans les 6 mois s’opposer à l’inclusion de leur(s) titre(s) dans le registre. Les éditeurs le peuvent également, à condition qu’ils s’engagent à réexploiter l’ouvrage sous format papier ou numérique (ou s’ils le font déjà). En l’absence d’opposition, les livres seront numérisés et confiés à une société de gestion collective chargée d’exploiter commercialement ce fonds et de rémunérer les ayants-droit.

Je ne suis pas juriste, ni expert du droit d’auteur, je ne peux donner sur ce projet qu’un ressenti personnel à la hauteur de mon expérience et de ma pratique personnelles. Mais vu de chez moi, le déchaînement d’indignation suscité par ReLIRE est assez incompréhensible.

Quand on connaît la situation de l’édition aujourd’hui et son mode de fonctionnement, il faut vraiment faire preuve d’une immense naïveté (ou mauvaise foi) pour penser que ces livres devenus indisponibles depuis plus de 10 ans et qui le sont restés depuis ont la moindre chance d’être réédités en dehors de ce dispositif. La durée d’exploitation d’un titre est actuellement de quelques mois à peine, sa présence en librairie de quelques semaines. Les éditeurs tirent les exemplaires au plus juste pour éviter les stocks, tout ce qui n’est pas écoulé dans ce délai de quelques mois est pilonné. La probabilité de voir les distributeurs et les libraires accepter de remettre en place un titre qui n’est pas neuf est quasi nulle, si bien qu’un éditeur préfèrera toujours publier quelque chose de nouveau qu’il pourra marketer comme tel que de ressortir des textes des tiroirs, même s’ils sont bons. Même les distributeurs numériques effectuent une sélection dans ce qu’ils diffusent, ils ne font pas de numérisation de masse et ne vont certainement pas rechercher les titres d’il y a dix ans quand le marché les inonde de plus de 60 000 monographies par an. Les auteurs qui ont la chance d’être constamment réédités et vendus sont peu nombreux, mais en passant, ce ne sont pas eux qui sont concernés par le dispositif ReLIRE.

Alors évidemment, constituer comme on peut un registre de 60 000 titres et demander aux auteurs de faire de l’opt-out ce n’est peut-être pas le système idéal, mais quoi d’autre ? Négocier individuellement avec chacun ses droits numériques ? Ce serait une tâche dantesque, j’en sais quelque chose moi qui ai la charge de le faire pour les quelque 6000 artistes dont les œuvres sont conservées au Centre Pompidou. Et dans quel but ? Quand je pense que mes quelques Œuvres Papier commises (en tant qu’auteur) pour le Cercle de la Librairie m’ont rapporté chacune à peine une centaine d’euros, sur plusieurs années (et elles ne sont pas indisponibles !!) je doute que ces auteurs dont les œuvres étaient oubliées ne fassent fortune. Au moins, la mise en place d’une gestion collective et d’une commercialisation leur permettra de toucher quelque chose. S’ils trouvent cela ridicule, libre à eux de se retirer du dispositif et de mettre leurs œuvres en ligne gratuitement (à condition qu’ils aient récupéré leurs droits auprès de leur éditeur, of course… un autre parcours du combattant, malgré tout, dans lequel seuls les plus tenaces s’engageront).
On peut aussi critiquer le système de l’opt-out et se dire que la base de données proposée par la BnF devrait être parfaite du premier coup et intégrer toutes les informations qui n’existent pas, comme le registre centralisé de toutes les éditions numériques déjà existantes, FRBRisé s’il-vous-plaît pour qu’on puisse savoir de quelle édition papier la version numérique est dérivée. Ceux qui ont déjà géré une base de données bibliographique de 60 000 références savent qu’il n’y a rien là d’anodin (et je tire mon chapeau au passage aux collègues de la BnF pour le travail réalisé en un temps record, moi qui ai toujours claironné que faire aboutir un projet en moins de 2 ans dans cet établissement était impossible.)
On pourrait objecter que le délai d’opposition, 6 mois, est bien court. Je fais cent pour cent confiance aux auteurs et à leurs ayants-droit pour aller vérifier le registre dans les 6 mois. Ces gens-là sont soucieux de ce qu’il advient de leur production. S’ils ne le sont pas, alors on peut penser qu’ils n’auraient jamais fait la moindre démarche pour que leurs bouquins redeviennent disponibles, c’est donc heureux que quelqu’un le fasse à leur place.

On ne peut pas à la fois critiquer la loi sur le droit d’auteur dans le fait qu’elle est inadaptée au monde numérique, et en même temps tirer à boulets rouges sur la première initiative visant à essayer de trouver des solutions intermédiaires. Évidemment, le monde serait plus beau et les licornes pataugeraient au pied de cascades de guimauve si tous les auteurs, même les plus obscurs, pouvaient voir leur prose toujours accessible, sans que cela ne nécessite de construire un modèle économique pour que quelqu’un (les éditeurs par exemple) assument les coûts associés, et qu’en plus tout le monde puisse en vivre grassement. Mais il faut être un peu réaliste. Le dispositif proposé présente au moins l’avantage d’offrir une seconde vie à des ouvrages qui n’en auraient jamais eu.

NB : « le droit de relire », l’un des droits fondamentaux du lecteur selon Daniel Pennac, Comme un roman, 1992.

SWIB12

J’ai eu la chance d’assister la semaine dernière à la quatrième édition de la conférence SWIB (pour Semantic Web in Bibliotheken). Renommée en « SWIL » (pour Semantic Web in Libraries) cette conférence à l’origine tout à fait allemande est devenue complètement internationale, c’est-à-dire que toutes les communications se font maintenant en anglais.

Vous pouvez retrouver en ligne les diapos et également les vidéos des interventions, dont la mienne qui était la « keynote » du 2e jour.

Globalement, cette conférence reste très technique et réunit principalement des acteurs du web sémantique en bibliothèque qui ont véritablement les mains dans le cambouis ; mais on trouvait dans le public et même parmi les intervenants des « vrais » bibliothécaires qui ne sont pas des développeurs (dont moi !) La conférence a d’ailleurs commencé par une première demi-journée de tutoriels.

Fait intéressant, les bibliothèques semblent avoir maintenant dépassé le stade des questionnements de base sur l’intérêt de la chose, la publication des données bibliographiques étant devenue un fait pratiquement naturel. La plupart des interventions allaient donc au-delà, abordant par exemple l’élargissement de l’ouverture des données de bibliothèques à d’autres types de données comme les données de circulation, d’exemplaire, ou encore les jeux de données de la recherche. Les questionnements pratiques vont aussi au-delà, abordant des problématiques comme la provenance et la confiance, la gestion des alignements, ou encore la mise à jour des flux de données.

A suivre l’année prochaine à Hambourg !

CPV en orbite

Cela faisait un moment (en fait, un an et demi) que j’attendais ça : nous avons enfin lancé le Centre Pompidou Virtuel. On va pouvoir arrêter de l’appeler comme ça et parler simplement du nouveau site du Centre Pompidou.



Comme tous les sites Web, il n’est pas parfait, il va devoir encore beaucoup évoluer, nous avons encore plein de projets (heureusement, sinon je serais en plein baby blues…) mais c’est quand même un grand moment de bonheur !

Bien sûr ma communauté d’intérêt favorite, informée de l’événement sur Twitter, s’est jetée sur le nouveau joujou à la recherche du RDF… et en est revenue toute dépitée. Oui, c’est vrai, le Web sémantique est au cœur de la machine mais on ne le diffuse pas pour l’instant. Comme je l’expliquais à l’IFLA cet été, nous n’avons pas fait du Linked OPEN Data mais du Linked ENTERPRISE Data. C’est à dire que nous avons appliqué les technologies du Web sémantique à nos propres données afin de construire notre propre service.

C’est quand même du Web sémantique, du vrai de vrai, et notre site est véritablement construit dessus, en production. J’ai eu l’occasion d’expliquer tout ça, avec l’aide de Got qui a présenté quelques projets complémentaires, lors du séminaire IST de l’INRIA en début de semaine. (C’était vraiment bien, si vous n’avez pas pu y assister, je vous recommande le livre).

Est-ce que cela signifie qu’on va en rester là ? Pas du tout.
La première étape sera de rendre le RDF plus visible en intégrant des métadonnées (probablement du Schema.org) dans les pages HTML. Comme cela, on exploitera la richesse des informations disponibles tout en les rendant accessibles à d’autres et en améliorant notre stratégie de référencement.
La deuxième étape sera de développer des mécanismes permettant à d’autres de réutiliser nos données, et d’y associer la licence ouverte qui va bien. Je l’ai dit plusieurs fois dans des conférences, c’est une suite logique, et cela s’inscrit complètement dans l’ADN du projet qui est par nature ouvert.
Mais avant d’y arriver, il va falloir traverser en louvoyant deux couches d’astéroïdes.

La première est liée au statut des contenus : en tant qu’œuvres du XXe et XXIe siècles, ils sont pour la plus grande partie encore protégés par les droits de propriété intellectuelle.
À ma connaissance, l’ampleur du chantier de collecte d’autorisations que nous avons entrepris est sans précédent (nous ne pouvons nous réfugier ni derrière le domaine public avec une barrière temporelle ni derrière le fair use anglo-saxon).
Ce sont souvent des négociations et des explications avec des personnes qui ne sont pas familières avec la technologie et qu’il faut rassurer sur notre démarche. On veut construire le site avec eux, pas contre eux, et cela nécessite d’avancer pas à pas.
Aujourd’hui, le fait que les contenus peuvent être protégés même si les data sont libres est un discours qu’on a même du mal à expliquer à des professionnels de l’information, alors avec les ayants droit cela risque d’être un long chemin semé d’embûches.

La deuxième difficulté tient à la nature de l’institution et de son activité. Moi qui viens des bibliothèques, je suis imprégnée jusqu’à la moelle d’une culture de l’échange de données qui est pour nous une évidence. Dans les musées, j’ai l’impression qu’il faut commencer par démontrer la valeur ajoutée de la démarche, et aussi rassurer, sur le plan institutionnel, sur le fait que l’institution ne va pas se trouver dépouillée de ses ressources propres si elle ouvre ses données.
La démarche de faire du site du Centre Pompidou un immense centre de ressources offrant gratuitement l’accès à tous les contenus numériques n’était déjà pas une évidence et a représenté plusieurs années de travail. Nous travaillons quotidiennement à réconcilier cette approche « documentaire » perçue comme un ovni avec les besoins de visibilité concrets et immédiats de nos collègues dans les autres services.
L’idée que ce centre de ressources doit être ouvert sur l’écosystème du Web, interagir avec d’autres jeux de données, les enrichir et s’en enrichir à son tour est pour moi une évidence, mais institutionnellement cela a besoin d’être approfondi, expliqué et démontré. C’est un de mes chantiers pour les mois à venir.

IFLA 2012 (suite) – Quelques questions existentielles sur le Linked Data

Pour clore cette série de billets sur mon voyage à l’IFLA, je voulais revenir sur quelques idées fortes qui se sont avérées récurrentes quand il a été question de Web sémantique et de Linked Data.

Le premier point portait sur les licences et de l’open data. Ce sujet avait été inscrit à l’agenda de la session des bibliothèques nationales, et il a surgi également lors de nos deux événements sur le Web sémantique (la table ronde OCLC et la session du SWSIG). On commence à voir les « gros » se poser réellement la question pour une partie de leurs données de l’ouverture complète, sans la moindre contrainte, façon CC0 : la British Library, la Deutsche Nationalbibliothek, la BnF. De même, OCLC a récemment ouvert les données de WorldCat en Schema.org sous licence ouverte. Les données sont fournies dans les pages en RDFa, mais on peut aussi télécharger un « dump » (gros fichier avec plein de données dedans) partiel contenant 1,2 millions de ressources. Ce choix de licence montre qu’OCLC reste attaché au principe de la citation de la source, allant jusqu’à fournir des guidelines sur la meilleure façon de citer ses sources s’agissant de données. Je trouve ce document très intéressant en ceci qu’il aborde les différents cas possibles, depuis l’attribution sous la forme d’une mention globale (genre, « ce site/service/article utilise des données de Worldcat sous licence ODC-by ») jusqu’au simple fait d’utiliser les URIs de WorldCat dans le jeu de données, qui est considéré comme une forme d’attribution en soi ! L’intermédiaire entre les deux consiste à ajouter dans la description de son dataset un triplet avec un « DC:source » vers WorldCat. On pourra lire avec grand bénéfice quelques commentaires sur la stratégie d’OCLC sur le blog CC. Bien que je sois globalement d’accord, je les trouve un peu sévères sur les guidelines et la question de leur applicabilité dans le contexte du Linked Data. Il me semble au contraire que le fait de considérer la simple utilisation des URI comme une forme d’attribution contribue à intégrer juridiquement le principe qui est au cœur du Linked Data (« follow your nose », naviguer dans les données en suivant les liens). Et justement, cela fait plusieurs années qu’on proclame, nous les Linked Data évangélistes, que vos données – même réutilisées – ramèneront toujours de la valeur et de la visibilité à votre institution ne serait-ce qu’à travers les URI. C’est donc réconfortant de lire cela dans les guidelines d’OCLC… Sans vouloir m’étendre davantage sur OCLC, je trouve pour finir que ces quelques pas qu’ils font en direction du Linked Open Data sont significatifs d’une tendance beaucoup plus importante : le modèle économique de la vente des données, c’est fini. Et tous les acteurs qui reposaient là-dessus uniquement vont devoir se creuser la cervelle pour trouver autre chose. Quant à ceux, comme les bibliothèques nationales, qui y voyaient un sympathique à-côté fournissant quelques petits revenus quand même, ils vont pouvoir libérer leurs données avec la conscience tout à fait tranquille… bonne nouvelle non ? (A lire absolument pour se détendre sur le sujet : pourquoi les bibliothèques ne sont pas en open data, par Mace Ojala sur Cyc4libs.) Une fois les données ouvertes, c’est bien joli mais on aimerait bien pouvoir savoir qui va les utiliser et comment. Et là c’est le trou noir, le black out. Les données libérées sont désespérément muettes quant à leur usage, tout au plus dispose-t-on de logs sur un serveur qui semblent témoigner d’une activité, mais laquelle… Or la communauté ayant maintenant bien intégré l’idée que nous ne pouvons pas aller plus loin sans démontrer la valeur ajoutée de l’open/linked data en termes de réutilisations, cette question est devenue cruciale. C’était d’ailleurs le sujet de ma keynote à DC2011. A l’époque c’était presque révolutionnaire, et j’avais lancé ce slogan : « we need to stop citing the BBC », parce qu’il me semblait impensable que nous puissions tenir encore plusieurs années sans avoir un autre exemple digne de ce nom à présenter. Quand je dis « digne de ce nom », ce n’est pas que les autres applications sont indignes, mais je voulais parler d’exemples démontrant l’usage des données du Linked Data en production, et pas seulement de manière expérimentale, cet usage étant assorti d’une vraie réflexion et d’un discours sur ce que cela apporte à l’institution. Quand on discute avec les collègues de la BBC (on peut aussi lire leur use case sur le site du W3C) ils expliquent que l’approche Linked Data est complètement intégrée à la conception de leur système d’information, dont une partie est considérée comme « externalisée » sur le Web (en gros, ils corrigent les notices de Wikipédia au lieu d’éditorialiser leur propre site) et dont la clef de voûte réside dans l’attribution des URI qui permettent d’unifier le système. En fait, ils ont eu avant la lettre cette vision du Linked Enterprise Data (minute copinage : vous trouverez une très bonne explication du LED en français ici), c’est-à-dire l’utilisation des principes et des technologies du Linked Data à l’intérieur du système d’information pour unifier les données entre les différentes applications. C’est d’ailleurs cet aspect que j’ai choisi d’approfondir quand j’ai présenté le Centre Pompidou virtuel pendant la table ronde OCLC (comme quoi je ne raconte pas toujours la même chose !) J’ai comparé le principe à celui d’un intranet, qui utilise les technologies du Web mais au bénéfice interne de l’institution, sans parler de publication. Eh bien là c’est la même chose, une première étape où on fait en quelque sorte du Linked Data en interne – avant, je l’espère, d’envisager d’ouvrir les données. Ainsi, le premier argument pour convaincre une institution de faire du Linked Data pourrait être la perspective d’améliorer les processus internes. Mais si on parle d’open data, il faut aussi être capable de démontrer la valeur ajoutée de l’ouverture, en terme de réutilisation. Martin Malmsten suggérait de partir d’un principe simple : contribuez ce qui est unique chez vous, et bénéficiez de l’ensemble. A mon avis, il reste cependant nécessaire de démontrer *comment* on bénéficie de l’ensemble, et pour cela il nous faut connaître les utilisateurs du service et les cas d’usage. D’où la question : comment faire pour connaître les utilisateurs de nos données ouvertes ? On a failli repartir tous avec des tee-shirts « if you build it, they will come ; if you break it, they will complain » (l’idée étant de casser le service pour que les utilisateurs se manifestent ;-) Mais plus sérieusement, l’approche proposée par Neil Wilson (BL) m’a semblé très sensée : c’est à nous de construire la communauté, en contribuant éventuellement dans un premier temps à la mise en place de services tiers, pour montrer l’exemple. Enfin, le troisième défi souligné par mes camarades de la British Library et de la bibliothèque royale de Suède est celui de la mise à jour des données. Il est aussi lié au point précédent, en ceci qu’on constate que les consommateurs actuels de Linked Data ont tendance à faire porter leur préférence sur un dump plutôt que d’utiliser les données liées en temps réel, pour diverses raisons notamment techniques sur lesquelles je ne vais pas m’étendre ici. Au temps pour le graphe global : ce qu’on utilise aujourd’hui en réalité, c’est bien souvent une photographie des données à un instant T, et suivant la fréquence de mise à jour du dump source et de l’application cliente, la fraîcheur du service est inégale. Du coup, côté OCLC et Libris, on privilégie une approche où la version RDF de chaque notice fait partie intégrante du service, dans un esprit très Linked Data. Ils voudraient inciter leurs utilisateurs à utiliser directement ces données plutôt que des dumps qui vont se périmer très vite. Côté British Library et BnF, on rafraîchit tous les mois, et on voudrait passer à un rythme hebdomadaire. Et moi, je suis bien placée pour savoir que rafraîchir quotidiennement est un défi, mais que dans certains cas c’est aussi une nécessité. Donc, on voudrait que notre Linked Data soit plus intégré aux processus de production des données, et pas seulement en bout de chaîne (cf. ce que je disais plus haut sur le LED). On voudrait des applications qui « suivent leur flair » (follow your nose, donc) en temps réel au lieu d’avaler des gros fichiers une fois de temps en temps. Et enfin, on voudrait un processus de notification qui permette aux consommateurs de données de savoir quand un dataset ou une ressource a été mis à jour (c’est là que Martin s’est mis à parler d’Atom et de PubSubHubbub, le protocole au nom marrant). Cette problématique renvoie à la question de la provenance, sur laquelle travaille le DCMI, en lien avec le W3C qui avait fait un groupe d’incubation sur le sujet. Mais ce n’est pas tout ; dans le Linked Data on exprime les triplets sous la forme d’un document, un fichier qui contient les données sous une forme RDF/XML ou autre. La question est donc de savoir comment utiliser ce document pour transmettre aussi des informations de notifications concernant les mises à jour. Mince, je m’étais dit que j’allais faire un petit billet pas trop long et voilà le résultat… En tout cas, nous allons aborder tous ces sujets, Got et moi, dans notre présentation au séminaire INRIA en octobre. Pour ceux qui n’ont pas pu s’inscrire, les actes seront publiés, en français dans le texte. Ces questions seront également au cœur de la présentation que je vais faire en keynote de la 2e journée de la conférence SWIB 2012, à Cologne, le 27 et 28 novembre prochains (je me permets de l’annoncer en avant-première, le programme devrait être publié très prochainement). Alors venez nombreux ! Commentaires bienvenus par mail, sur Twitter @figoblog et sur Facebook pour ceux qui y sont.

IFLA 2012 et le Web sémantique

Comme vous le savez, je suis gravement monomaniaque et la seule chose qui m’intéresse à l’IFLA c’est les communications qui portent sur le Web sémantique, le Linked Data ou autre chose du même genre. Heureusement il y en a plein. Voici un petit raccourci à travers les papiers à lire sur le sujet (sans garantie de leur qualité ou de leur contenu, je n’ai pas encore eu le temps de tout regarder ni même d’assister aux présentations…).

Dimanche, au sein de la session sur les moments inspirés du catalogage, il y a eu la présentation du projet Pode et de problématiques liées aux données de data.bnf.fr.

Lundi dans la session Unimarc, une présentation intitulée « Linked data for libraries » par des gens de l’université de Portsmouth. Dans la même session il y a eu aussi une courte présentation du Bibliographic Framework Initiative par la Library of Congress, mais il n’y a pas de document en ligne et je tiens de Sally Mc Callum elle-même que tout est sur le site web.

Pas dans le programme officiel mais intéressant tout de même, il y avait aussi lundi une table ronde organisée par OCLC, à laquelle j’ai participé, sur le Linked Data. Vous pouvez retrouver les présentations ici.

Mardi la session de la section Classification & Indexing, bien sûr un des lieux importants pour parler Web sémantique à l’IFLA. On peut y découvrir les très intéressants projets de recherche menés par différentes équipes finlandaises dans le domaine du Web sémantique appliqué aux technologies de bibliothèque.

Mercredi il y avait la sessions sur l’open data dans les bibliothèques nationales que l’IFLA avait eu la bonne idée de programmer pile en même temps que celle du Semantic Web SIG (on peut pas leur en vouloir, c’est toujours comme ça, il y a plein de choses en parallèle… mais quand même c’était rageant). Même si les aspects techniques n’étaient pas au cœur de cette session, au moins 3 des 4 interventions (bibliothèques nationales allemande, française et écossaise) évoquent le Linked Data même si ce n’est pas forcément au cœur du sujet.

Toujours mercredi donc la session de mon groupe, le SWSIG. Il n’y a presque rien dans le programme mais j’ai posté des choses sur le site du groupe et j’y mettrai bientôt les diapos de la session. J’ai aussi créé un hashtag sur twitter, #SWSIG, que je vous encourage à utiliser toute l’année pour me signaler des sujets d’intérêt pour le groupe.

Jeudi c’est peut-être un peu plus épisodique, mais lors de la session du tout nouveau IFLA Committee on Standards, il a été question à plusieurs reprises du IFLA Namespaces task group.
Un mot sur ce groupe qui n’a pas d’existence suffisamment officielle à l’IFLA (c’est un groupe de travail rattaché pour l’instant à la section Classification) pour apparaître dans le programme. Il s’est réuni lundi matin, et son objectif est d’accompagner les groupes qui publient des standards de l’IFLA pour le Web sémantique (notamment les versions des FRBR et autres FR** et de l’ISBD qui sont disponibles dans l’Open metadata registry). En ce moment ce groupe travaille notamment sur des guidelines pour la traduction des labels en différentes langues. L’articulation de ce groupe qui est en fait très transverse à plusieurs sections avec l’IFLA Committee on Standards est aussi un sujet brûlant. En tout cas je note que ce groupe suscite un intérêt croissant. On n’était que quelques pelés autour d’une table en 2009. Cette année, il y avait plus de 30 personnes à la réunion du groupe (dont 2/3 d’observateurs).
On retrouve toutes les infos sur l’IFLA Committee on Standards ici.

Dans la session Libraries for the Law on retrouve une intervention de la bibliothèque du Congrès du Chili dont nous avons eu un résumé pendant le SWSIG.

Et enfin, c’est la session des bibliographies nationales où on retrouve les français et les allemands qui visiblement ont bloqué sur les data :-)

Il est à noter que grâce au gros boulot fait par l’AIFBD et les volontaires, la plupart de ces communications ont été traduites en français. Ceux que ça intéresse peuvent encore candidater pour les rares qui ne l’ont pas été !

Sinon j’en ai peut-être loupé quelques-unes dont le titre n’était pas suffisamment explicite pour que je détecte le Linked Data dedans. N’hésitez pas à me les signaler sur Twitter ou par mail (j’ai fermé les commentaires du blog à cause du spam, c’était intolérable) et je les rajouterai.

IFLA 2012 – Comment rédiger un top tweet

Comme vous le savez, plus les réseaux sociaux sont sociaux, plus ils deviennent un outil de marketing destiné en fait à vous vendre quelque chose – fut-ce la popularité individuelle de leurs utilisateurs. Dans ce monde de biblio-geeks qu’est l’IFLA, où la moitié de la population se déplace en permanence avec un œil rivé à son smartphone, son iPad, son mini-PC ou son portable, Twitter est un véritable canal d’information à part entière, en parallèle de la conférence mais aussi de sa sociabilité, sur lequel les gens échangent des informations, des blagues, des astuces, des photos, et bien d’autres choses.

Moi qui suis grande débutante dans le domaine du community management (mais je suis à bonne école ;-) j’étais toute fière hier de voir que le réseau social fétiche des conférenciers poussait obstinément en haut de liste, sur le hashtag #WLIC2012, une de mes créations. J’avais rédigé *le* top tweet.

(Pour les débutants, le hashtag c’est un peu comme une vedette matière, mais en moins long.)

Donc voici ma recette infaillible pour rédiger un top tweet.

1) Il ne faut surtout pas louper les temps de sociabilité IRL (ça veut dire « in real life », par opposition à ce qui se passe sur le réseau et qui, comme chacun sait, n’est ni réel ni vivant) qui donnent d’infinies possibilités de trouver de bonnes idées de top tweet. Par exemple, samedi soir, je me suis rendue au caucus francophone, rassemblement qui n’a pas vraiment d’autre utilité que d’en être un, puis au « moment de convivialité » offert par la ville de Lyon pour célébrer sa candidature pour le congrès de 2014 (nous serions tellement heureux si Lyon était choisie, tout ça.) C’est là que j’ai rencontré Jean-Christophe, que je remercie au passage pour l’opportunité de ce top tweet.

2) Votre top tweet doit toucher à ce que les gens ont de plus viscéral, afin que tout le monde se sente concerné. Par exemple la nourriture, ou l’accès internet, qui sont les deux seules choses sans lesquelles un bibliothécaire ne peut survivre à l’IFLA. Il sera prêt à faire la queue pendant des heures pour obtenir la première, surtout si elle est gratuite. Et il sera infiniment reconnaissant à celui qui lui fournit le second, surtout si c’est gratuit. Pour autant, une fois qu’on a récupéré les codes d’accès, fait-on vraiment attention à l’identité de ce bienfaiteur omniprésent ? Visiblement non puisqu’il m’avait fallu cette rencontre IRL pour réaliser que notre fournisseur d’accès wifi cette année était français, ouvert et éditeur numérique. Trois qualités éminemment twittables.

3) Une fois que vous avez trouvé un bon sujet pour votre top tweet, la forme a aussi son importance, afin que les gens retwittent directement votre tweet au lieu de diffuser la même information en la rédigeant à leur propre sauce (vous ne pourriez même pas les attaquer pour contrefaçon, en moins de 140 caractères c’est trop compliqué). Votre tweet doit être rédigé de telle façon que les gens le reprennent tel quel. Il doit être parfait. Pour cela :
– rédigez votre tweet dans la langue la plus couramment parlée à l’IFLA (désolée pour mes amis francophones)
– interpelez directement votre lecteur en commençant par une accroche du type « le saviez-vous ? »
– utilisez des abréviations, mais pas trop, pour faire juste un peu geek mais pas adolescent boutonneux, et surtout pour garder votre tweet en-dessous de 130 caractères. Vous allez me dire oui mais Twitter autorise 140 caractères ? Visez 130, quand les gens vous retwittent ils doivent aussi ajouter votre pseudo twitter, il faut leur laisser la place…
– votre tweet doit contenir rien que l’info utile et toute l’info utile (liens, etc.) Chaque mot compte.

4) Votre tweet est prêt, vous n’avez plus qu’à ouvrir la cage et le laisser s’envoler. Pour cela, choisissez un moment clé, par exemple tôt le matin, quand vous arrivez frais et pimpant le premier au Centre des Congrès pour assister aux improbables réunions administratives qui précèdent la cérémonie d’ouverture. Ainsi votre tweet aura toute la journée devant lui pour grandir, grossir, se répandre et devenir top.

5) Dernier conseil : vous ne savez jamais lequel de vos tweets va effectivement devenir un top tweet. Alors tweetez abondamment !

Mais au fait, à quoi ça sert de rédiger un top tweet ? Eh bien, à force d’être repris, favorité (quelques néologismes ne tuent pas s’agissant de technologies) et retwitté, votre tweet va se retrouver épinglé pendant quelques heures tout en haut de la liste « top » de votre conférence, faisant fi du temps qui passe, ce qui n’est pas rien sur les réseaux sociaux. Par la loi bien connue de la valeur, plus il sera retwitté, plus il sera visible, et donc plus il sera retwitté, entrant ainsi dans un cercle vertueux. Outre que votre égo démesuré s’en trouvera flatté, vous deviendrez pour une journée l’un des blogueurs visibles de la conférence, et ceux qui n’avaient aucune idée que vous existiez vous découvriront (appréciable quand on se trouve dans une conférence de 4000 personnes. Eh oui on ne peut pas discuter avec tout le monde IRL.) Évidemment, si en plus vous avez dit un truc intelligent, ce truc sera entendu par un maximum de gens, ce qui est appréciable aussi.

Mais bon, moi j’espère surtout que les collègues de Open Edition me paieront un pot sur leur stand ;-)

IFLA 2012 – plongée dans l’organisation

Cela fait maintenant 4 ans que je participe à l’IFLA, et sans oser me comparer aux routard(e)s qui ont fait Moscou, Pékin et Durban, je dois dire que cette année je commence à savourer la familiarité des rituels qui se répètent : réunions des comités permanents, caucus des francophones, cérémonie d’ouverture… L’IFLA c’est un peu comme de se retrouver une semaine par an chez soi partout dans le monde. Bref, je vous renvoie à Göteborg pour une explication des premières étapes du congrès et des rouages de l’IFLA.

Je pense qu’il y a trois catégories de gens qui apprécient l’IFLA : les hypersociaux qui savourent le bain de foule, les travailleurs qui élaborent courageusement des normes en suant 20h par jour dans des salles sans fenêtre pendant une semaine, et les gens qui éprouvent une fascination morbide pour le développement endémique de l’organisation en soi.
Vous l’aurez compris, je fais partie de la troisième catégorie. La première année à Milan, j’avais été très déçue de découvrir que la « Newcomer session », session des nouveaux, relevait davantage d’un événement social destiné à propager le mantra de l’IFLA comme lieu de bonheur que d’un endroit où l’on découvrait les rouages de cette incroyable institution internationale. À force de creuser, à Göteborg j’avais commencé à comprendre comment la machine fonctionnait.

Puis j’ai trouvé mes semblables : on les appelle « IFLA officers », et sans eux rien ne pourrait fonctionner. Ils ont accepté la responsabilité d’être élus président, secrétaire ou chargé de communication d’une section. Ils assistent à des sessions où il est question de budget, de rédaction de plans stratégiques et d’élections. Ils connaissent les membres du Governing Board et du Professional Committee par leur nom et savent même à quoi servent ces organes. Ils remplissent des formulaires dans les temps tout au long de l’année pour que le congrès puisse avoir lieu.

Mon statut de « convenor » du groupe d’intérêt spécialisé Semantic Web (SWSIG) m’a permis de me joindre aux officiers de l’IFLA pour le Leadership Brief et le Division Leadership forum de la division III (Library services) et de plonger plus avant dans les méandres de cette passionnante institution. Pour ceux qui comme moi aiment savoir comment ça marche, et pas seulement profiter du résultat, les deux sessions de formation des officiers (« officiers training session » – mardi à 13:45 et mercredi à 11h45) sont ouvertes aux curieux et aux vocations.