Des nouvelles d’Europeana

Du 7 au 9 novembre derniers, j’ai assisté à l’assemblée générale de l’association du réseau Europeana (Europeana Network Association), précédée de la réunion du conseil des membres. Je poste mon compte-rendu ici car comme vous le savez, la participation à l’association se fait à titre individuel : au sein du conseil des membres, je représente l’ensemble de ma communauté (vous tous, chers lecteurs, qui que vous soyez !)

Un petit rappel sur la gouvernance avant de commencer : pour mémoire, Europeana marche aujourd’hui sur deux jambes. La première est son organe opérationnel ou exécutif, la Fondation Europeana, en charge de la mise en œuvre du portail Collections notamment. La deuxième est l’Association, qui rassemble l’ensemble du réseau dans toute sa diversité : bibliothécaires, archivistes, conservateurs de musées mais aussi enseignants, historiens, éditeurs, entrepreneurs de start-ups et simples usagers. L’Association est pilotée par un conseil des membres (Members Council) dont 6 représentants forment le Management Board. Les membres de ce Management Board siègent également au Governing Board de la Fondation : l’instance qui pilote le tout, en lien avec les États membres et la Commission Européenne. En images :

Donc Assemblée générale de l’Association : il s’agit de la grande rencontre annuelle de tous les membres du réseau, qui se tenait cette année à la bibliothèque nationale de Lettonie à Riga.

Parmi les sujets à l’ordre du jour, la nouvelle stratégie d’Europeana suite aux conclusions du conseil de l’Europe en mai dernier. Cette nouvelle stratégie repose sur deux grands axes :
– d’une part, pour les institutions patrimoniales, faciliter considérablement le versement de données dans Europeana,
– d’autre part, moderniser la manière dont les usagers accèdent au contenu, en mettant l’accès sur les usages pédagogiques et les accès thématiques.

Sur le premier point, nous avons eu droit à une présentation du nouveau procédé « operation direct » qui permettra de charger dans Europeana des documents numériques directement via une API très simple ou à partir d’un CMS, par exemple. Ce mode de versement ne se substitue pas au fonctionnement actuel avec les agrégateurs, mais il en est complémentaire. Le rôle de IIIF dans l’évolution du modèle d’agrégation a aussi été plusieurs fois souligné (cf. aussi cette très bonne explication de IIIF en français).
Sur le deuxième point, le portail Collections avec ses 53 millions d’objets numérisés a donc vocation à se trouver un peu en retrait, à l’avenir, par rapport aux collections thématiques comme Musique, Histoire de l’art et bientôt Mode, Photographie, Presse etc. C’est l’occasion d’annoncer que pour la première fois, la Commission européenne se propose de financer des projets de médiation autour des collections numériques d’Europeana (projets à soumettre avant le 15/12).

Bien d’autres sujets ont été abordés au cours de cette assemblée générale. Les collègues américains étaient à l’honneur : ont partagé leur expérience les professionnels de DPLA, du Getty ou encore de NYPL Labs. Il a été également question à plusieurs reprises de Wikidata.
Des questions importantes pour l’avenir du réseau ont été posées, comme celle du mandat donné à Europeana pour faire du lobbying dans le domaine du copyright ou l’évaluation de l’impact de la bibliothèque numérique européenne.
Ajoutez à cela le format « chef’s tables » qui a permis d’aborder un grand nombre de sujets, du design orienté utilisateur à l’agrégation en passant par l’utilisation d’Europeana pour la recherche, et une vingtaine d’« ignite talks » : vous aurez une idée du brassage très large d’idées qui caractérise ce réseau riche et divers.

La conférence s’est terminée sur une table ronde animée par David Haskiya sur le thème « et si tout était à refaire ? » L’occasion de rappeler que même si le résultat est loin d’être parfait, Europeana nous a permis de progresser énormément sur le plan technique et de créer une dynamique autour des contenus numériques culturels. Un effort que la communauté réunie la semaine dernière à Riga est motivée à poursuivre.

Pour en savoir plus :

IIPC 2016 – how to collaborate ?

Il y a deux semaines, j’avais le privilège de partir pour une semaine en Islande à l’occasion de la rencontre annuelle du consortium IIPC pour la préservation de l’Internet : d’abord l’assemblée générale, puis conférence WAC (Web Archiving Conference) et enfin la réunion du Steering Committee, instance de gouvernance du consortium. Ce dernier, constitué de 15 membres issus pour la plupart de bibliothèques nationales, m’a fait la confiance de me confier la présidence du consortium pour un an.

 

Beaucoup d’entre vous m’ont félicitée sur les réseaux sociaux, ce dont je vous remercie, mais je ne suis pas sûre que tout le monde sache exactement de quoi il retourne, donc j’ai décidé de revenir ici sur le consortium IIPC et ce rôle de présidente.

 

Le consortium a été fondé il y a 13 ans par un petit groupe de bibliothèques nationales conjointement avec Internet Archive, fondation américaine à but non lucratif qui s’était donné l’objectif d’archiver le web dès le milieu des années 1990 et était pratiquement la seule organisation, à cette époque, disposant de l’infrastructure matérielle et logicielle permettant d’accomplir une tâche aussi dantesque à grande échelle.
IIPC avait alors pour but de créer des outils communs, de susciter l’émergence d’une communauté et d’alerter sur l’importance de l’archivage du web, afin que se mette en place une dynamique internationale qui assurerait la mémoire du web que nous connaissons.
Le propos introductif de Marc Weber, directeur du Computer History Museum, du colloque Time and temporalities of the Web, en fin d’année 2015, m’a fait réaliser que parmi les nombreux réseaux qui ont existé avant que le web ne finisse par s’imposer, comme Arpanet ou le Minitel par exemple, fort peu ont fait l’objet d’un effort de préservation ; en fait, seuls en ont bénéficié ceux dont les créateurs avaient conscience d’une perte de mémoire potentielle et se sont mobilisés pour sauvegarder leur propre objet.
Le travail d’Internet Archive dès 1996 puis l’investissement des bibliothèques nationales, qui ont cherché à se doter non seulement d’outils mais aussi d’un cadre juridique s’appuyant sur le dépôt légal et de procédures métier héritées de leur tradition professionnelle, ont doté le web d’une mémoire qui a en outre la qualité de ne pas être trop biaisée d’un point de vue historique, en tout cas moins que si elle avait été documentée uniquement par les créateurs du web eux-mêmes.
Avec la fondation d’IIPC, les bibliothèques nationales apportaient à la communauté de l’archivage du web un autre atout : leur capacité à organiser des processus de couverture documentaire au niveau international, comme elles l’avaient fait autrefois avec le contrôle bibliographique universel.

 

Aujourd’hui le consortium IIPC ce sont 50 membres venus de nombreuses régions du globe et dont le profil ne se limite plus aux bibliothèques nationales : des bibliothèques universitaires, des acteurs majeurs dans le domaine de l’audiovisuel ou encore des acteurs privés se préoccupent aujourd’hui de cette question. La conférence annuelle s’ouvre également, de façon de plus en plus prégnante, à des universitaires issus de différentes disciplines, pour lesquels les archives du web sont un objet d’étude et une source de premier plan.
Dans ce contexte, le consortium semble à présent traverser une deuxième crise de croissance (la première ayant eu lieu au moment où le consortium élargissait sa base de 12 membres fondateurs : pour en savoir plus sur l’histoire d’IIPC jusqu’en 2010, lire l’article de Gildas Illien dans le BBF). Ainsi les différentes sessions de l’assemblée générale et de la conférence, sans qu’un thème particulier leur ait été attribué, ont naturellement convergé vers une question récurrente : « how to collaborate » ? Tout le monde s’accordant à reconnaître que la collaboration était aujourd’hui un enjeu majeur et une aspiration généralisée, mais que le « comment » devenait compliqué à définir avec l’élargissement de la communauté, la multiplication de ses centres d’intérêt et de fait, parfois, des divergences de vues. Pour autant, les propositions de collaboration ont été foisonnantes et ont pris de nombreuses formes différentes :
Le panorama : avec plus de 50 institutions et 150 individus autour de la table, un des premiers enjeux réside dans le fait de savoir sur quels projets travaillent les uns et les autres afin de faire émerger des synergies potentielles. Harvard a réalisé récemment un « Web archiving environmental scan » : un travail de 5 mois pour explorer les pratiques de 23 institutions et en tirer 22 opportunités de travaux à conduire. L’idée qu’IIPC puisse être un forum pour mettre régulièrement à jour ce type de rapport et ainsi mieux communiquer sur les pratiques de ses membres a été émise.
Le développement open source : celui-ci reste au cœur des pratiques traditionnelles d’IIPC, et on perçoit aujourd’hui encore des attentes importantes à l’égard des outils majeurs comme le crawler Héritrix (robot qui moissonne les pages web) ou l’open wayback (outil d’accès aux archives web), perçus comme insuffisamment documentés et stabilisés.
Les API : les « gros » outils mentionnés ci-dessus, bien qu’utilisés très largement, sont perçus comme monolithiques et peu évolutifs au regard d’un web qui tend à se modifier techniquement plus rapidement qu’eux. Ainsi la collecte des réseaux sociaux ou encore des plateformes de vidéo sont aujourd’hui des challenges auxquels tout un chacun est confronté. L’idée de travailler sur une chaîne d’outils plus modulaire, souple et évolutive, dont les différentes briques seraient liées entre elles par des API avait déjà été soulevée par Tom Cramer l’année dernière. Mais elle s’est encore renforcée et précisée cette année.
Les normes et standards : fortement liés aux outils, les standards comme le format WARC et ses différents dérivés continuent à jouer un rôle important. L’effort de normalisation requiert la construction d’un consensus et fait donc partie des attentes à l’égard d’IIPC.
Les hackathons : L’exemple d’Archives Unleashed, présenté par Ian Milligan et Matthew Weber, a montré l’importance d’organiser des temps forts d’expérimentation réunissant développeurs, archivistes et chercheurs de toutes disciplines, non seulement pour faire émerger de nouvelles idées et projets de recherche, mais aussi pour mieux comprendre ce matériau particulier que sont les archives web et adapter les outils.
L’étude des usages : l’approche orientée utilisateurs n’est pas une nouveauté au sein de la communauté IIPC qui avait déjà rassemblé des use cases (une première fois en 2006 puis à nouveau en 2013). On a vu cependant émerger de nouvelles méthodes plus orientées études d’usage, comme l’utilisation de « personas » par les archives gouvernementales britanniques.
Les collections collaboratives : là aussi il y a un existant côté IIPC, avec les collections collaboratives qui se sont mises en place d’abord autour des jeux olympiques puis d’autres sujets (la grande guerre, la crise des migrants en Europe…) en utilisant depuis l’an dernier le service Archive It. On a vu cependant émerger d’autres propositions de modèles collaboratifs autour de la collecte, comme le projet Cobweb dont l’objectif est de mettre en commun les ressources de sélection et de collecte à travers un répertoire qui permettrait à chacun de proposer des collections à archiver et à différentes institutions de déclarer leurs collectes.
Le cloud : Brewster Khale, dans sa présentation de la « bibliothèque nationale d’Atlantis » (celle dont le logo est un mermaid cat), va plus loin et renoue avec le vieux rêve d’une grande archive internationale collaborative et reliée, en s’appuyant sur l’idée du cloud : une mutualisation des infrastructures, des ressources et des outils, permettant néanmoins à chaque bibliothèque nationale d’affirmer sa propre identité. On est très proche ici des idées que je présentais récemment au sujet des bibliothèques numériques. Brewster note aussi la difficulté croissante à démêler le web des autres ressources qui intéressent les bibliothèques (livres, revues, audiovisuel…), devenues elles aussi numériques et circulant sur le web, ce qui va nous obliger à penser des interfaces qui ne séparent plus le web du reste de la bibliothèque.

 

Et mon rôle de présidente, dans tout ça ? Le renouvellement de l’accord de consortium début 2016 a été l’occasion de remettre sur la table la question de la stratégie d’IIPC et ses ambitions, ainsi que de revoir sa gouvernance : ont ainsi été créés trois « portefeuilles » (« portfolios »), trois thématiques qui permettent d’appréhender le consortium sous trois angles différents : le développement des outils, l’engagement des membres et la recherche de nouveaux partenariats.
Ce changement amené par le précédent président, Paul Wagner de Bibliothèques et Archives Canada, pouvait paraître couler de source mais il a été reconnu par certains des membres les plus anciens du steering committee comme une étape essentielle, et avec raison. Il apporte en effet deux éléments qui seront sans doute clefs pour le développement d’IIPC à l’avenir : d’une part une gouvernance plus engagée, d’autre part une lisibilité de la stratégie qui devrait lui permettre de passer cette nouvelle étape de croissance, c’est-à-dire de cesser d’être un groupe ou un club exclusif réservé à quelques experts pour devenir une communauté, dans toute sa richesse et sa diversité.
Prenant le relais de Paul au 1er juin 2016, mon rôle sera d’accompagner cette nouvelle organisation et de l’installer dans le fonctionnement quotidien du consortium et en particulier du Steering Committee, avec pour ambition de transformer les idées en actions concrètes, même si celles-ci ont dans un premier temps une ambition limitée.
Sur ce je vous laisse, j’ai un « strategic plan » à rédiger ;-)

IIPC GA 2015, jour 2 : WARC, WAT, WET et WANE

Si vous venez à la BnF consulter les archives du Web ou que vous utilisez en ligne la Wayback Machine d’Internet Archive, vous pourrez parcourir le Web du passé en le « rejouant » sous la forme de pages qui ressemblent, parfois beaucoup, parfois vaguement à ce qu’elles étaient à l’époque où elles faisaient partie du « Web vivant » comme on l’appelle ici. Vous pouvez, par exemple, regarder à quoi ressemblait le Figoblog en 2005 : sympa pour les nostalgiques ! Cependant, il arrive parfois qu’il manque des bouts (par exemple à cette période la feuille de style CSS n’a manifestement pas été récupérée) ou que le site n’ait simplement pas été aspiré (ou « crawlé » pour employer le terme consacré) à une date précise. Par ailleurs, l’accès aux archives Web mobilise de plus en plus des usages qui n’impliquent pas d’accéder aux pages elles-mêmes en les rejouant, mais aux données qu’elles contiennent, voire aux données contextuelles que sont les informations de formats, de dates, de modalité de collecte, etc.

Le 2e jour de la conférence ouverte d’IIPC, consacré à des ateliers, est entré davantage dans la technique quant aux modalités d’exploitation de ces archives. Il a été notamment question de formats et de protocoles qui permettent différentes modalités d’accès.

La journée s’est ouverte sur une présentation par Herbert Van de Sompel du projet Memento. Memento fournit un protocole pour accéder à distance à différentes archives Web et donc retrouver, à partir d’une URL et d’une date, la version la plus pertinente dans différentes archives disponibles. On crée ainsi de l’interopérabilité entre archives Web, avec pour perspective d’étendre à l’avenir le projet aux « dark archives », c’est à dire les archives qui ne sont  pas librement accessibles en ligne mais dont les métadonnées pourraient être signalées.

Ce principe est illustré dans le service Time travel qui s’est également doté récemment d’un mécanisme de reconstruction permettant de récupérer dans différentes archives les « bouts » qui constituent une même page Web afin de la reconstituer au plus proche. Par exemple, si une archive a préservé le contenu d’une page et une autre sa CSS, on arrivera à afficher la page correctement mise en forme.

Memento a aussi développé Robustlinks, un outil permettant notamment aux auteurs d’articles d’associer leurs publications à une archive et à des métadonnées en Schema.org de façon à assurer qu’elles restent accessibles à travers le temps. Le projet Hiberlink étudie l’impact de tels mécanismes sur les publications scientifiques.

Je ne passerai pas en revue une à une les autres interventions de cette journée, je vais plutôt les synthétiser en évoquant les différents formats qui permettent d’archiver le Web et d’exploiter ces archives de différentes manières.

Le premier de ces formats, c’est WARC : un conteneur qui permet de stocker les fichiers archivés avec un certain nombre de métadonnées, dont les informations liées à la collecte (date, etc.). Ce format normalisé à l’ISO va être révisé cette année.  Le problème avec WARC, c’est que c’est un format assez lourd à stocker et manipuler. Un certain nombre de développements ont été imaginés pour l’alléger, notamment un mécanisme de dédoublonnage qui évite de stocker plusieurs fois le même fichier s’il n’a pas changé depuis le dernier crawl.

On a besoin des WARC si on veut accéder au contenu. Mais si on s’intéresse aux données (ou aux métadonnées) on peut faire appel à des formats plus légers qui ont été développés à cette fin.

Les WAT contiennent les métadonnées de chaque fichier, les informations concernant la collecte et d’autres éléments comme la liste des liens présents dans les pages HTML. Ces informations sont stockées en JSON ce qui permet de les exploiter facilement pour faire toutes sortes de statistiques. On a en général 1 fichier WAT pour 1 fichier WARC et chaque fichier WAT représente environ 15 à 20% de la taille du WARC auquel il correspond. Il existe également une variante nommée WET qui contient tous les éléments textuels d’un WARC.

Les LGA (Longitudinal Graph Analysis) contiennent la cartographie complète des liens à l’intérieur d’une archive Web. Ils permettent de générer des visualisations de données. Le fichier LGA ne représente qu’1% du poids de toute la collection de WARC qu’il cartographie.

Enfin une mention spéciale pour les WANE : il s’agit de stocker les entités nommées contenues dans les pages web, sur le même principe que les WAT (1 fichier WANE pour 1 fichier WARC). Le fichier WANE représente moins d’1% de son WARC.

Si vous lisez ce billet et que vous ne savez pas ce que sont les entités nommées, je vous conseille de vous arrêter un instant et de plonger dans cette notion. Il devient en effet de plus en plus fréquent d’entendre parler d’entités nommées au détour de réunions où de conférences, y compris en présence d’acteurs pas du tout techniques, ce qui laisse à penser que cette notion est aujourd’hui considérée comme acquise pour des bibliothécaires. Pourtant, lors de mon dernier cours donné à des documentalistes en master 2, j’ai pu constater que la plupart d’entre eux ne savaient pas ce que c’était, voire n’en avaient jamais entendu parler.

Ce terme désigne dans un texte les entités qu’on est capable d’identifier, de qualifier en vue de les relier à d’autres informations : des personnes, des lieux, des organisations, des dates ou périodes, des événements, des concepts, etc. Si on reprend les archives du Web, imaginons qu’on a collecté la page d’accueil du site du Monde le 4 novembre 2008, on pourra sans doute identifier la personne « Barack Obama » et le lieu « États-Unis ».

La plupart des initiatives visant à reconnaître les entités nommées qui ont été présentées dans les différentes conférences de l’assemblée IIPC s’appuyaient sur le logiciel de reconnaissance d’entités nommées de Stanford: Stanford NER. Le principe de ce type de logiciel de reconnaissance d’entités nommées est de définir des règles qui permettent, pour une langue donnée, de les reconnaître (par exemple, si une séquence commence par « Monsieur » on peut supposer que ce qui suit est un nom de personne). Ces règles sont affinées ou enrichies par des mécanismes d’apprentissage (machine learning) : on « apprend » à la machine à reconnaître les entités nommées en le faisant manuellement sur un corpus de référence et ensuite, elle se débrouillera toute seule sur des documents similaires.

Lors d’une présentation qui a eu lieu un peu plus tard (jour 4, désolée d’anticiper) mes collègues de la BnF ont présentées les recherches actuellement réalisées par une ingénieure du labex « les passés dans le présent », qui utilise les WAT pour analyser les relations entre les sites Internet qui traitent de la Grande Guerre.

L’intervention de l’historien canadien Ian Milligan fourmillait d’autres exemples d’application de ces différentes techniques pour le champ de la recherche en histoire depuis les années 1990. Pour Ian, il est impossible de faire de l’histoire récente sans utiliser les archives du Web : on passerait à côté de son sujet en évacuant cette source primordiale. Il va jusqu’à proclamer que les archives du Web vont profondément transformer le travail des historiens et l’histoire sociale.

Seul problème : les compétences. En effet, peu nombreux sont les historiens capables de manipuler ce genre d’outils. Si toutefois vous voulez vous lancer, le tutoriel est par ici ;-)

IIPC GA 2015, jour 1 : « context matters »

La dernière fois que j’ai assisté à une rencontre d’IIPC, le consortium pour l’archivage de l’Internet, c’était en 2009 à San Francisco. Par une sorte de coup du sort, je me retrouve aujourd’hui de nouveau en Californie, cette fois à Stanford, pour assister à l’assemblée générale 2015 du consortium qui a bien grandi (pour suivre l’événement sur Twitter, c’est #iipcga15).

Coit Tower depuis Russian Hill, sur Filbert str.

C’est assez amusant de voir que certaines des choses que j’écrivais à l’époque sont toujours – et plus que jamais – d’actualité, même si le sujet de l’archivage du Web semble avoir subi entre temps une petite révolution copernicienne puisque, lors de cette journée d’ouverture, on a moins parlé d’archivage que d’usage. En fait j’en ai retenu principalement deux choses :

  • d’une part, que « le contexte c’est important » (pour citer Paul Wagner, actuel président du steering committee d’IIPC) – vous me direz, pour des archives, c’est quasiment un truisme ;
  • d’autre part, que si on n’arrive pas à les rendre utilisables, cela ne sert pas à grand chose de les conserver.

Dès la conférence d’ouverture, pour laquelle nous avions l’honneur d’accueillir Vinton Cerf (vous savez, celui qui n’a pas inventé le Web) en compagnie de Mahadev Satyanarayanan (alias Satya, de Carnegie Mellon University), la question posée était celle de la facilité d’accès ou même de l’expérience utilisateur dans le domaine de l’archivage de l’Internet. En effet, après que V. Cerf ait introduit l’enjeu de la préservation des contenus dynamiques et en particulier exécutables (genre des logiciels ou des data contenues dans des logiciels), Satya a présenté le projet Olive qui vise à rendre l’expérience d’une machine virtuelle aussi fluide qu’un streaming sur Youtube.

Toute personne qui a un jour essayé de lancer une machine virtuelle (par exemple, pour faire tourner un OS Windows sous Linux et ainsi essayer de sauver un vieux powerpoint dont vous voulez absolument récupérer les 52 diapos animées sans avoir besoin de les retaper…) ne peut qu’être saisie d’émerveillement devant la mécanique présentée par Satya, qui permet, en quelques secondes, de faire revivre successivement une vieille version de Windows, le jeu Oregon Trail pour Mac (1990) ou encore d’accéder au Web d’aujourd’hui avec un navigateur Mosaïc 1.0.

Cependant, si on veut utiliser ce genre de méthode pour préserver des sites Web ou même des contenus exécutables, quels qu’ils soient, tels qu’on les connaît aujourd’hui, la question du contexte se pose rapidement : quelle quantité de Web va-t-il falloir « aspirer » pour disposer de tout le contenu nécessaire pour rendre ces objets utilisables de manière similaire à ce qu’ils étaient à l’origine ? Et je ne vous parle même pas de la question de l’Internet des objets, certains objets connectés étant difficiles, voire impossibles à émuler sur une machine virtuelle en raison de leur matérialité.

La question des usages de ces archives de l’Internet et en particulier, des outils nécessaires pour les utiliser est restée centrale pendant toute la journée.

Les exemples danois et anglais ont permis de voir comment les archives du Web peuvent être utilisées pour analyser le domaine Web national d’un pays : taille, format, contenus, etc.

La première session de l’après-midi posait la question de l’archivage de données très personnelles telles que les profils Facebook ou les photos et vidéos de famille, mais du point de vue des individus eux-mêmes. On a ainsi appris que beaucoup de gens ne se soucient guère de voir leur mur Facebook préservé, voire s’y opposent carrément parce qu’ils le font constamment évoluer, de façon à ce qu’il reflète leur perception de leur identité à un instant T. Et pour les plus jeunes, il semblerait qu’ils soient persuadés que de toute façon, tous ces contenus publiés sont conservés automatiquement par quelqu’un quelque part…

D’une façon générale, la préservation des archives familiales semble avoir été profondément bouleversée, voire parfois remise en cause, par l’irruption du numérique parce que dans une famille, celui qui a le rôle de l’archiviste n’est pas forcément celui qui maîtrise l’informatique domestique (c’est là que je me suis félicitée d’avoir à la maison un geek qui s’est pas mal intéressé à la préservation numérique :-D). C’est que créer des contenus est perçu comme plus gratifiant que de passer du temps à les gérer et les organiser…une vérité qui ne me semble pas non plus totalement étrangère à la problématique de la gestion des collections numériques dans les bibliothèques.

Enfin la journée s’est terminée avec la présentation du projet BUDDAH : Big UK Domain Data for the Arts and Humanities, autour des archives Web de la British Library. Ce projet vise à promouvoir l’usage des archives du Web comme matériau pour la recherche, à travers diverses initiatives comme ces vidéos de présentation. Le projet a aussi débouché sur un prototype permettant une recherche à facettes dans l’ensemble des 160 téraoctets d’archives de la British Library : Shine. Shine propose aussi un outil de recherche de tendances, qui permet de comparer l’évolution des occurrences d’un mots dans les archives du Web sous la forme d’un graphique.

C’est là que revient la question du contexte, avec plus d’acuité que jamais. L’un des enjeux majeurs pour que les chercheurs puissent aujourd’hui exploiter de façon satisfaisante les archives du Web est la construction de corpus documentés. On a en effet besoin de savoir comment l’archive a été constituée, voire de la manipuler et de définir des sous-ensembles avant de commencer à en analyser le contenu, faute de quoi on risque de se retrouver avec des résultats biaisés. Ces projets démontrent aussi la pertinence d’une approche de type « big data » : beaucoup des résultats qui nous ont été présentés exploitaient les archives Web sans jamais aller jusqu’à la consultation des pages, en fouillant simplement les données, les métadonnées associées aux objets et aux collectes. Cela implique bien sûr des compétences tout à fait spécifiques pour ces historiens du Web, telles que l’exploitation de données quantitatives et leur visualisation graphique.

Pour conclure, la communauté IIPC semble aujourd’hui préoccupée de rendre les collections qu’elle a pu créer depuis plusieurs années immédiatement utilisables par des chercheurs d’aujourd’hui, qu’il s’agisse d’inventer des outils ou de documenter le contexte de ces archives. Cet enjeu apparaît quasiment comme une question de survie : il y a urgence à démontrer l’intérêt et l’utilité de ces collections. Les web-archivistes sont extrêmement attachés à démontrer l’importance de leur travail, qui pourtant ne fait pas de doute quand on voit qu’en deux ans, 60% des contenus Web du domaine .uk ont disparu, été déplacés ou modifiés :

De façon assez ironique, l’un des meilleurs moyens de légitimer l’usage des archives du Web aujourd’hui semble être d’inviter des chercheurs à écrire un livre sur le sujet. Numérique, bien sûr, et accessible… sur le Web !

I want you… For IFLA 2014

Comme vous le savez (sinon c’est que vous ne suivez pas, là, quand même !) le congrès de l’IFLA aura lieu l’année prochaine en France, à Lyon. Un congrès réussi se mesure au nombre de participants du pays organisateur : imaginez, Singapour c’est quand même tout petit et il y avait 800 bibliothécaires singapouriens inscrits au congrès ! 800 ! Alors il va falloir faire au moins aussi bien.

Pour vous motiver à participer à cet événement incroyable voici 10 bonnes raisons de participer à l’IFLA à Lyon en 2014.

1) Parce que vous n’avez jamais vu 3000 bibliothécaires réunis en un seul lieu. C’est un peu flippant mais ça vaut le détour, quand même.
2) Parce que vous n’avez jamais vu 100 bibliothécaires en folie danser sur Abba. Si vous l’avez déjà vu, vous rêvez d’y avoir droit encore une fois, avouez-le.
3) Pour se faire des amis dans les 7 langues officielles des 150 pays de l’IFLA.
4) Parce que quel que soit votre sujet de prédilection, il y a toujours quelque chose d’intéressant qui se passe à l’IFLA. Avec un peu de chance vous pouvez même présenter votre propre projet dans l’une des sessions du congrès, en répondant à l’un des appels à communication qui vont fleurir cet hiver.
5) Parce que c’est pas tous les jours que l’IFLA a lieu dans votre pays, ne laissez pas passer cette chance (la dernière fois c’était en 1989 et il n’y a même pas un site Web pour en témoigner).
6) Pour manger gratos – c’est un peu la débrouille mais on y arrive toujours.
7) Parce que de toute façon en août vous vous ennuyez, votre B.U. est fermée et les vacances sont beaucoup trop longues.
8) Pour pouvoir vous glisser dans les réunions des sections qui vous intéressent, et peut-être envisager d’en devenir membre un jour.
9) Parce que c’est à Lyon et qu’il y aura donc du saucisson brioché, de la cervelle de canut, du tablier de sapeur, des quenelles et d’autres délices décadents que vous pourrez agréablement digérer pendant votre sieste au parc de la Tête d’Or (tout en vous efforçant de faire abstraction de votre mauvaise conscience à l’évocation des conférences passionnantes que vous êtes en train de louper).
10) Pour faire Cycling4Libs en Vélov.

Et en prime, 5 bonnes raisons de devenir volontaire (on cherche encore 200 volontaires alors allez, on se motive !)

1) Pour assister aux conférences gratos.
2) Pour avoir un joli tee-shirt (gratos).
3) Pour apprendre à dire « saucisson brioché » et « quenelles de saumon » dans les 6 autres langues officielles de l’IFLA.
4) Pour manger gratos encore plus facilement que les congressistes.
5) Pour avoir le privilège de découvrir l’ambiance unique de l’hébergement en cité universitaire en plein mois d’août.

Retrouvez plein d’infos utiles sur le congrès de Lyon 2014 sur le site du CFI-bd.

Le Web sémantique à l’IFLA, saison 2013

J’ai déjà parlé de notre rencontre satellite avant le congrès de l’IFLA à Singapour, mais comme les années précédentes, le congrès lui-même a aussi été l’occasion de parler Web sémantique et Web de données.

Ce sujet était à l’honneur dans la session de l’UNIMARC Core activity dont les communications sont en ligne dans le nouvel entrepôt d’articles de l’IFLA.

J’ai pour ma part participé à deux événements récurrents : la table ronde Linked Data organisée par Richard Wallis d’OCLC, et la réunion du groupe d’intérêt spécialisé sur le Web sémantique (SWSIG) dont je suis responsable.

Cette année, pour la réunion du SWSIG, nous avions décidé de ne pas reproduire l’expérience des années passées qui avait consisté à enchaîner une série de « lightning talks » (présentations éclair) rendant compte de l’actualité des bibliothèques dans le domaine du Web sémantique. Deux raisons à ce choix : tout d’abord, cette actualité devient presque trop foisonnante pour en rendre compte de cette manière sans faire l’impasse sur un certain nombre de projets intéressants. Par ailleurs, ces présentations très courtes étaient finalement difficiles à digérer pour les participants, qui étaient demandeurs d’une expérience plus interactive.

J’ai donc organisé la séance, avec l’aide de plusieurs complices, autour de 4 groupes de discussion sur des sujets particuliers : les standards et les conversions, les liens et la coopération, l’utilisation et la réutilisation des données, et les outils et recettes. Sur l’inspiration du moment (ou presque ;-) un cinquième groupe a été créé, destiné à offrir une introduction aux débutants ou en tout cas, aux personnes qui ne se sentaient pas suffisamment à l’aise avec le sujet pour rejoindre l’un des autres groupes.

C’est moi qui ai animé ce dernier groupe qui s’est avéré le plus nombreux. Les questions posées dans les autres groupes, dont on peut lire le compte-rendu dans le rapport en ligne, étaient apparemment tout à fait passionnantes. Pour ma part, j’étais contente d’engager le dialogue avec les soi-disant « débutants », dialogue que j’ai commencé en leur demandant ce qu’ils faisaient là !
Trois profils ont peu à peu émergé :
– les managers, qui entendent parler du Web sémantique dans leurs équipes mais ont besoin d’en comprendre mieux l’importance stratégique,
– les affamés, qui ont déjà lu tout ce qu’ils trouvaient sur le sujet mais ont besoin de plus pour comprendre,
– les curieux, qui se disaient que peut-être cette session était l’occasion d’enfin consacrer un peu de temps à un sujet dont ils avaient seulement vaguement entendu parler jusque là.
Ceci démontre, s’il était besoin, qu’il reste important d’aborder ces sujets à l’IFLA. Certes les experts n’ont pas besoin de ce genre de conférences (ils sont tous à DCMI la semaine prochaine à Lisbonne !) Cependant, elles sont essentielles pour permettre aux personnes qui ne fréquentent pas les rencontres plus techniques d’avoir un aperçu tangible des évolutions en cours et de leur importance stratégique.

L’année prochaine, nous serons au rendez-vous avec ces événements récurrents, mais aussi comme je l’indiquais dans mon précédent billet, avec une conférence satellite qui se déroulera à Paris, à la BnF, le 14 août. A ce sujet le teasing continue… Plus d’information très bientôt !

UILLD : un satellite de l’IFLA

Me voici en direct de Singapour où j’ai assisté au 79e congrès de l’IFLA – il était temps que je me mette à bloguer car c’est le dernier jour ici ! Je ne ferai pas un compte-rendu exhaustif de ce congrès, mais je voudrais revenir sur quelques éléments liés à ma marotte habituelle : le Web sémantique.

Cette année, la section Information Technology dont je fais partie organisait une « rencontre satellite » sur un sujet particulièrement intéressant : les interfaces utilisateurs basées sur le Web de données en bibliothèque (User Interaction Based on Library Linked Data ou UILLD). En effet, après plusieurs années passées à se focaliser de manière principale sur la technologie d’une part, la publication des données d’autre part, il semblait important d’aborder la question du Linked Data du point de vue de ce qu’il apporte à l’utilisateur final.

La conférence durait toute une journée ; elle se déroulait dans la Jurong Regional Library de Singapour.
Un mot sur les satellites : c’est une véritable tradition de l’IFLA. Ils se déroulent avant ou après le congrès lui-même, durent une à deux journées et s’intéressent à un sujet en particulier parmi la pléthore des thèmes abordés par les différentes sections. Ces derniers temps il y en avait une bonne vingtaine autour de chaque congrès.
Parce qu’ils se focalisent sur un sujet précis et prennent le temps de le traiter en détail, je trouve que les satellites sont généralement plus intéressants que les sessions du congrès lui-même (en tout cas, c’était mon 2e satellite et cette impression que j’avais eue la première fois s’est vérifiée). Il n’est donc pas rare que des gens viennent uniquement pour assister à l’un de ces satellites et pas au congrès lui-même.

Pour en revenir à UILLD, je vais reprendre ici une citation tirée de la présentation de Martin Malmsten : vouloir « vendre » (au sens marketing du terme) l’idée de Web de données sans montrer d’interface, c’est un peu comme de vouloir vendre un fax alors que le papier n’aurait pas encore été inventé. Les interfaces ne sont peut-être pas au cœur du problème quand on parle de Web sémantique, mais au stade où nous en sommes, elles sont devenues absolument nécessaires pour démontrer à un public de non spécialistes, en particulier aux décideurs, l’intérêt de cette technologie.
C’est la raison pour laquelle il semblait vital d’organiser un événement focalisé sur ce sujet au sein de l’IFLA, parce que l’IFLA est justement un lieu où l’on touche beaucoup de professionnels de divers horizons et en particulier des cadres.

En ce qui concerne le contenu de cette rencontre, j’ai eu l’occasion de présenter l’interface du Centre Pompidou virtuel et Patrick Le Bœuf a évoqué le projet Opencat dont j’ai déjà parlé ici. Il semblerait qu’OpenCat ait bien évolué et je trouve que ce projet reste vital pour notre communauté, car il est le premier à démontrer l’utilisation des technologies du Web sémantique pour réaliser la même chose que ce qu’on faisait avec le catalogage partagé traditionnel, mais en mieux ;-)

Nous avons aussi pu voir des démonstrations d’interfaces réalisées par des personnes en dehors de notre communauté (développeurs, chercheurs) et qui utilisent des données de bibliothèque grâce à leur existence dans le Web de données : c’était le cas d’une application de visualisation pour terminaux mobiles (présentée par Bernhard Humm), ou d’un espace d’échanges de notes entre chercheurs (que nous a montré Ryan Shaw). Ils utilisent en particulier des données d’autorité pour servir de référentiels de personnes.
Ces expériences tendent à montrer que ces données n’auraient pas pu être utilisées (ou pas aussi facilement, ou l’idée ne leur serait pas venue) si elles n’avaient pas été présentes dans le Web de données. Plus encore, ils ont témoigné que les données de bibliothèques ont été choisies, après comparaison avec d’autres sources, pour leur qualité et leur précision ! C’est plutôt une bonne nouvelle.

Je suppose que les diverses présentations et articles complets seront mis en ligne prochainement. J’essayerai de penser à mettre à jour ce billet…

Je vais conclure en annonçant que l’année prochaine, nous organisons également un satellite sur le Web de données en bibliothèque. Il aura lieu à Paris, à la BnF, le 14 août. Plus d’infos à ce sujet bientôt.

Web sémantique, FRBR et RDA en tournée dans toute la France

Depuis quelques mois, bien que tenue à l’écart de l’évolution des normes de catalogage par d’autres activités, j’ai eu la chance de participer au tour de France entrepris par quelques collègues sous l’égide du CNFPT pour présenter « les catalogues au défi du Web ». Nancy, Montpellier, Dunkerque, Angers, plus deux journées sur un thème similaire organisées à Reims et Strasbourg par Médial et une excursion aux journées RNBM à Marseille : on peut dire qu’on a sacrément bourlingué.

Au programme, parmi les sujets évoqués, on a parlé du projet OpenCat réalisé par la BnF et la médiathèque de Fresnes, qui ont construit un OPAC (interface d’accès de catalogue) en ligne en s’appuyant sur data.bnf.fr et d’autres données du Linked Data (le prototype est maintenant consultable en ligne).
On a discuté des nouvelles règles du Sudoc qui visent à mieux préparer la FRBRisation et le passage à RDA, ou encore de la FRBRisation des thèses.
On a abordé Bibframe, l’initiative pragmatique (trop pragmatique ?) des américains pour faire évoluer les formats MARC. On a parlé du rapport du comité stratégique bibliographique sur l’avenir des catalogues en France, et des actions menées par le groupe EURIG pour faire évoluer RDA vers un code de catalogage vraiment international et pas seulement anglo-saxon.

Bref, autant dire qu’il y a trop de sujets intéressants et d’évolutions passionnantes pour tout faire tenir en un seul billet. Et puis c’est vrai que si j’ai continué à travailler d’arrache-pied sur le Web sémantique (avec un projet de livre en préparation !) je me suis un peu éloignée de ces sujets plus strictement bibliothéconomiques et je ne me sens pas vraiment très à la page pour en parler.

Pour ceux qui auraient raté ces rencontres passionnantes, sachez qu’une session de rattrapage est organisée par le CNFPT le 19 novembre prochain à Paris. Je serai là encore au rendez-vous, pour introduire le propos en expliquant ce que change le Web…

La culture, c’est notre Data

La semaine dernière a eu lieu la première rencontre « data culture » entre établissements du Ministère de la Culture sur le thème de l’open data. Faisant suite à la parution du Guide Data Culture, cette journée avait pour objectif d’initier la mise en place d’un réseau de professionnels intéressés par l’enjeu de l’ouverture des données au sein du ministère. L’après-midi, des ateliers ont permis d’agiter un peu nos cellules grises autour de cas d’utilisation.

Je vous laisse découvrir le storify de la journée qui a été abondamment twittée, et la petite vidéo qui résume l’essentiel du guide sus-nommé.

J’ai particulièrement apprécié la présentation d’Henri Verdier, le directeur d’Etalab et j’ai été assez frappée par le fait que les réutilisations proposées, aussi bien existantes qu’imaginaires, étaient quasiment toutes tournées vers le développement d’applications pour mobiles. Le nouvel El Dorado quoi…

Le titre de ce billet est spécialement dédicacé à Romain ;-)

Compte-rendu du séminaire IDPF

A l’occasion du Salon du Livre de Paris, j’ai eu la chance d’assister au séminaire organisé par l’IDPF (International Digital Publishing Forum) le 25 mars dernier. L’objectif de ce séminaire technique était de présenter aux éditeurs les fonctionnalités de l’ePub3 et les perspectives offertes par ce standard. Je rends compte ici de ce que j’ai pu y entendre.

L’IDPF est un organisme de normalisation dont le sujet de travail principal est la normalisation du format ePub. Le séminaire s’est ouvert sur une conférence introductive de Bill Mc Coy, directeur exécutif de l’IDPF, qui avait pour objet de démontrer entre autres que la distinction entre sites internet, applications natives et livres numériques a de moins en moins de sens aujourd’hui avec la mutualisation des moyens de développement entre ces plateformes. Il pose le constat que le modèle économique de l’application native ne fonctionne pas : elles coûtent trop cher à produire et les modalités de production ne sont pas scalables à l’ensemble du catalogue d’un éditeur qui publie plusieurs centaines ou milliers de titres par an. Il est donc nécessaire de faire évoluer ce mode de travail. Il est probable qu’à l’avenir on se dirige de plus en plus vers un format de contenus structuré qui sera réutilisable dans plusieurs contextes. L’ePub3 est appelé à jouer un rôle dans ce contexte grâce à la conjonction avec HTML5.

La présentation d’HTML5 était effectuée par Robin Berjon qui représentait le W3C (je m’excuse d’avance pour l’inexactitude probable avec laquelle je vais rapporter ses propos…) L’ePub3 était présenté par Daniel Weck du consortium Daisy (un organisme qui travaille sur l’accessibilité du livre numérique) (ses diapos en ePub dans le texte ici.)

HTML5 est plus une galaxie de normes qu’une norme unique. Il y a une centaine de spécifications liées entre elles qui incluent HTML5 proprement dit mais aussi d’autres standards tels que CSS par exemple (pour la mise en forme), Javascript, etc. L’ensemble est désigné sous le terme générique de « the Open Web Platform ».

HTML5 apporte de nouvelles fonctionnalités par rapport au HTML traditionnel :
– support natif de la vidéo et de l’audio : on n’a plus besoin d’installer un plug-in (ex. Flash) pour lire ces médias
– interactivité native grâce à « canvas », une sorte de langage qui permet de coder directement en HTML des applications interactive (jeux, 3D…) de même type que ce qu’on pouvait faire avec Flash
– de nouvelles fonctions de présentation (il semblerait qu’on puisse faire des ligatures grâce à HTML5 et CSS par ex. :-)
– le support natif de Ruby (utile pour les écritures japonaises et chinoises), MathML (pour les équations mathématiques) et SVG (images vectorielles qui permettent par exemple d’agrandir les images sans pixellisation)
l’amélioration des formulaires
– de nombreuses APIs qui permettent notamment d’interagir avec le terminal (dans le cas d’un terminal mobile cela permet de gérer par exemple l’orientation portrait/paysage, de détecter les vibrations, d’interagir avec le micro, la lumière ambiante, etc.)
– une meilleure sémantique de structuration de la page qui permet maintenant de distinguer un en-tête et pied de page, des menus de navigation, etc.

On le voit, toutes ces nouvelles fonctions de HTML5 sont extrêmement pertinentes dans le contexte d’un usage en mobilité et plus spécifiquement dans le contexte du livre numérique enrichi.
Dans la mesure où ePub3 est complètement basé sur HTML5, on dispose nativement de tout l’outillage nécessaire pour ajouter des médias, interagir avec des terminaux de lecture de type eReader / tablette, et structurer le contenu d’une manière cohérente avec les pratiques traditionnelles du livre (en séparant le texte lui-même du paratexte – titres, tables des matières, notes, etc.)

ePub3 est donc basé sur HTML5 mais vient également y ajouter un certain nombre d’éléments :
– l’empaquetage : en plus de l’empaquetage physique (un fichier ePub est en fait une sorte de « zip » qui contient plusieurs fichiers) il s’agit de déclarer toutes les composantes d’un paquet : navigation linéaire, table des matières, liste des pages physiques (permet des renvois depuis les références du livre imprimé)
– le paquet peut aussi contenir des métadonnées et inclure les polices spécifiques dont on a besoin pour la présentation. Cela permet à l’ePub d’être autonome et autodescriptif ;
– l’accessibilité : à l’origine le consortium Daisy travaillait sur son propre format XML pour les personnes en situation de handicap (le XML Daisy). Ils ont décidé de s’impliquer dans la normalisation d’ePub3 pour palier aux défauts d’accessibilité qui étaient ceux d’ePub2. Il est ainsi possible de synthétiser automatiquement une lecture audio à partir du texte en faisant appel à certaines fonctions de CSS (choix du type de voix, ajout d’un fichier de prononciation pour les termes ambigus par ex.)
– un système de liens performants, le système CFI (Canonical Fragment Identification) gère les notes de bas de page – qui deviennent d’ailleurs plutôt des pop-up dans ce contexte – et les tables des matières directement en HTML5 (en ePub2, il y avait un format distinct pour encoder la table des matières. Le fait qu’elle soit un simple fichier HTML permet de la présenter comme une page normale et pas seulement comme un outil de navigation)
– les méthodes de cryptage, de signature et de gestion des DRM.

A titre d’illustration de ces potentialités, un autre intervenant, Peter Meyers, nous a présenté trois exemples de livres numériques qui tirent tout le potentiel du média interactif :
The good man, une nouvelle interactive
Welcome to Pinepoint par Paul Shoebridge et Michael Simons (en Flash) qui fonctionne un peu comme un scrapbook multimedia
Fish, un essai de Robin Sloan conçu pour la lecture sur smartphone.
Il s’agit ici d’inventer de nouvelles modalités d’écriture et de lecture dans un monde numérique.

Luc Audrain d’Hachette a ensuite présenté la problématique de l’industrialisation de la production de livres numériques pour les gros éditeurs.
Il a commencé son exposé en notant que contrairement à une idée reçue, transformer un livre papier en livre numérique n’est pas une opération qu’on fait une fois pour toutes. Au contraire, il faut la répéter plusieurs fois : pour corriger des erreurs, pour prendre en compte des nouvelles versions du format, etc. L’industrialisation de la production est donc d’autant plus une nécessité.

Il nous propose ensuite une grille d’analyse matricielle permettant de différencier les types d’ouvrages en fonction de leur niveau de structuration et de l’importance de la mise en page :
– peu structuré, peu maquetté (ex. romans)
– très structuré, peu maquetté (ex. dictionnaires)
– très structuré, très maquetté (ex. livres de recettes de cuisine)
– peu structuré, très maquetté (ex. livres d’art).
Cette grille permet de faire un choix entre deux stratégies de conversion : les ePub adaptables (dont la mise en page se réorganise en fonction de la taille et du format de l’écran) et les ePub fixés (qui respectent strictement la maquette d’origine).
Le ePub adaptable est très immersif et adapté à la lecture linéaire. Interopérable, il peut être produit à partir d’un flux XML. Cependant, la mise en page est limitée.
Le ePub fixé respecte la maquette du papier ce qui permet des coûts de production très bas. Toutefois, on perd en accessibilité et on ne distribue que sur un nombre limité de plateformes.
Pour Luc Audrain, si on ne fait que du texte, cela ne vaut pas la peine de passer à ePub3 qui n’est pas encore largement supporté, il vaut mieux rester à ePub2.

Plusieurs chaînes sont possibles pour produire les ePub adaptables :
– export ePub direct à partir d’InDesign : nécessite une grande vigilance de base sur la conception du fichier InDesign et de reprendre les ePub à la main ;
– deuxième possibilité, on structure un fichier Word pour obtenir de l’XML. Ce fichier XML est ensuite utilisé pour générer le PDF imprimeur et une version XML du contenu. On stocke l’ensemble dans un système de DAM (Digital Asset Management). L’ePub peut être généré en sortie. Cette chaîne fonctionne si on travaille à partir du fichier remis par l’auteur : pour le rétrospectif, on doit repartir du PDF imprimeur, voir du scan+OCR de la version papier.

Pour l’ePub fixé, on part de la maquette du papier et on produit :
– soit du HTML5+CSS (on crée un cadre dit « viewport » et ensuite on positionne les blocs de texte et d’image en absolu)
– soit une image vectorielle (SVG) ce qui revient au même principe en utilisant une technologie différente. N’importe quel PDF peut être facilement transformé en SVG, mais ce format n’est pas toujours supporté dans les logiciels de lecture d’ePub
– soit par une simple image de type JPG (méthode à l’abandon car fournit une expérience de piètre qualité notamment quand on agrandit l’image). Toutefois il peut être utile d’intégrer l’image dans le HTML5 afin qu’elle puisse servir de présentation alternative si le format n’est pas supporté.

Les contenus fortement structurés sont de plus en plus souvent stockés dans une base de données. Des équipes éditoriales les préparent alors en vue d’en faire des publications : vers du papier, des applications, des sites web, des fichiers ePub. Il existe des outils sur le marché permettant de gérer ce type de chaîne. Les auteurs n’écrivent plus uniquement pour le papier mais produisent des contenus.

Enfin il reste évidemment possible de créer un ePub ex-nihilo. L’outil Bluegriffon par exemple est un éditeur Web wysiwyg pour HTML5 et il permet également de générer des ePub2 et des ePub3.

La dernière étape réside dans le contrôle qualité. Il existe des outils de validation comme ePubcheck pour la structure des fichiers ePub. Il faut ensuite procéder à une validation visuelle grâce à un lecteur d’ePub comme Readium.

Une présentation de Marc Bide, du consortium EDItEUR a permis de rappeler que les métadonnées jouent un rôle encore plus important pour le livre numérique que pour le livre imprimé, car elles sont l’unique moyen de trouver le livre pour l’utilisateur final. Elles sont donc capitales pour la chaîne de distribution, mais aussi pour la bibliothèque personnelle de l’usager : tous les ebooks embarquent un minimum de métadonnées à cette fin. Toutefois celles-ci ne sont pas toujours suffisantes : c’est quand même énervant quand on a tous les livres d’une série d’être obligé de regarder dans wikipédia pour savoir dans quel ordre les lire !

L’ISBN est important pour faire le lien entre l’ouvrage et ses métadonnées. Marc Bide rappelle qu’il est important de fournir des ISBN différents pour la version papier et pour la version numérique. En effet, l’ISBN sert à différencier les éditions et non à les relier. On fournit un ISBN différent pour chaque format entrant (ex. PDF et ePub) ; c’est par contre optionnel si on a différents formats de sortie (ex. ePub et Mobi).

EDItEUR a sorti en 2009 une nouvelle version d’Onix, Onix 3.0, qui est beaucoup plus adaptée au livre numérique que l’ancienne version Onix 2.1. Elle permet entre autres de décrire des contraintes d’usage associées à un livre numérique.

Pour l’IDPF, la problématique majeure aujourd’hui est de faciliter l’adoption de l’ePub3 qui n’est pas encore très largement supporté, et même quand il l’est c’est souvent de manière incomplète.
Le BISG (Book Industry Study Group) maintient un outil qui permet de savoir quelle plateforme supporte ou non quelle fonctionnalité d’ePub3 : le ePub3 support grid.

Pour pallier à cette problématique, les tenants de l’HTML5 et de l’ePub3 encouragent le développement en « fallback design » : c’est-à-dire un design qui s’adapte aux capacités des différentes plateformes.
Il en existe deux sortes :
– « graceful degradation » : le développement est effectué en visant les plateformes les plus performantes, mais si une fonctionnalité n’est pas supportée, des formats alternatifs sont proposés
– « progressive enhancement » : la version présentée par défaut est la plus basique, ensuite on teste en javascript l’environnement de l’utilisateur et on fournit progressivement les contenus plus avancés si la plateforme le permet.

L’IDPF s’implique également dans le développement de Readium, qui est considéré comme le logiciel de lecture d’ePub3 de référence. Le jour du séminaire, l’IDPF annonçait la création de la Readium Foundation, dont l’objectif est de fournir des briques logicielles pour accélérer l’adoption d’ePub3. L’un des moyens utilisés sera la création d’un Readium SDK que les développeurs pourront utiliser pour intégrer les fonctions de Readium dans leurs propres applications.