IIPC GA 2015, jour 1 : « context matters »

La dernière fois que j’ai assisté à une rencontre d’IIPC, le consortium pour l’archivage de l’Internet, c’était en 2009 à San Francisco. Par une sorte de coup du sort, je me retrouve aujourd’hui de nouveau en Californie, cette fois à Stanford, pour assister à l’assemblée générale 2015 du consortium qui a bien grandi (pour suivre l’événement sur Twitter, c’est #iipcga15).

Coit Tower depuis Russian Hill, sur Filbert str.

C’est assez amusant de voir que certaines des choses que j’écrivais à l’époque sont toujours – et plus que jamais – d’actualité, même si le sujet de l’archivage du Web semble avoir subi entre temps une petite révolution copernicienne puisque, lors de cette journée d’ouverture, on a moins parlé d’archivage que d’usage. En fait j’en ai retenu principalement deux choses :

  • d’une part, que « le contexte c’est important » (pour citer Paul Wagner, actuel président du steering committee d’IIPC) – vous me direz, pour des archives, c’est quasiment un truisme ;
  • d’autre part, que si on n’arrive pas à les rendre utilisables, cela ne sert pas à grand chose de les conserver.

Dès la conférence d’ouverture, pour laquelle nous avions l’honneur d’accueillir Vinton Cerf (vous savez, celui qui n’a pas inventé le Web) en compagnie de Mahadev Satyanarayanan (alias Satya, de Carnegie Mellon University), la question posée était celle de la facilité d’accès ou même de l’expérience utilisateur dans le domaine de l’archivage de l’Internet. En effet, après que V. Cerf ait introduit l’enjeu de la préservation des contenus dynamiques et en particulier exécutables (genre des logiciels ou des data contenues dans des logiciels), Satya a présenté le projet Olive qui vise à rendre l’expérience d’une machine virtuelle aussi fluide qu’un streaming sur Youtube.

Toute personne qui a un jour essayé de lancer une machine virtuelle (par exemple, pour faire tourner un OS Windows sous Linux et ainsi essayer de sauver un vieux powerpoint dont vous voulez absolument récupérer les 52 diapos animées sans avoir besoin de les retaper…) ne peut qu’être saisie d’émerveillement devant la mécanique présentée par Satya, qui permet, en quelques secondes, de faire revivre successivement une vieille version de Windows, le jeu Oregon Trail pour Mac (1990) ou encore d’accéder au Web d’aujourd’hui avec un navigateur Mosaïc 1.0.

Cependant, si on veut utiliser ce genre de méthode pour préserver des sites Web ou même des contenus exécutables, quels qu’ils soient, tels qu’on les connaît aujourd’hui, la question du contexte se pose rapidement : quelle quantité de Web va-t-il falloir « aspirer » pour disposer de tout le contenu nécessaire pour rendre ces objets utilisables de manière similaire à ce qu’ils étaient à l’origine ? Et je ne vous parle même pas de la question de l’Internet des objets, certains objets connectés étant difficiles, voire impossibles à émuler sur une machine virtuelle en raison de leur matérialité.

La question des usages de ces archives de l’Internet et en particulier, des outils nécessaires pour les utiliser est restée centrale pendant toute la journée.

Les exemples danois et anglais ont permis de voir comment les archives du Web peuvent être utilisées pour analyser le domaine Web national d’un pays : taille, format, contenus, etc.

La première session de l’après-midi posait la question de l’archivage de données très personnelles telles que les profils Facebook ou les photos et vidéos de famille, mais du point de vue des individus eux-mêmes. On a ainsi appris que beaucoup de gens ne se soucient guère de voir leur mur Facebook préservé, voire s’y opposent carrément parce qu’ils le font constamment évoluer, de façon à ce qu’il reflète leur perception de leur identité à un instant T. Et pour les plus jeunes, il semblerait qu’ils soient persuadés que de toute façon, tous ces contenus publiés sont conservés automatiquement par quelqu’un quelque part…

D’une façon générale, la préservation des archives familiales semble avoir été profondément bouleversée, voire parfois remise en cause, par l’irruption du numérique parce que dans une famille, celui qui a le rôle de l’archiviste n’est pas forcément celui qui maîtrise l’informatique domestique (c’est là que je me suis félicitée d’avoir à la maison un geek qui s’est pas mal intéressé à la préservation numérique :-D). C’est que créer des contenus est perçu comme plus gratifiant que de passer du temps à les gérer et les organiser…une vérité qui ne me semble pas non plus totalement étrangère à la problématique de la gestion des collections numériques dans les bibliothèques.

Enfin la journée s’est terminée avec la présentation du projet BUDDAH : Big UK Domain Data for the Arts and Humanities, autour des archives Web de la British Library. Ce projet vise à promouvoir l’usage des archives du Web comme matériau pour la recherche, à travers diverses initiatives comme ces vidéos de présentation. Le projet a aussi débouché sur un prototype permettant une recherche à facettes dans l’ensemble des 160 téraoctets d’archives de la British Library : Shine. Shine propose aussi un outil de recherche de tendances, qui permet de comparer l’évolution des occurrences d’un mots dans les archives du Web sous la forme d’un graphique.

C’est là que revient la question du contexte, avec plus d’acuité que jamais. L’un des enjeux majeurs pour que les chercheurs puissent aujourd’hui exploiter de façon satisfaisante les archives du Web est la construction de corpus documentés. On a en effet besoin de savoir comment l’archive a été constituée, voire de la manipuler et de définir des sous-ensembles avant de commencer à en analyser le contenu, faute de quoi on risque de se retrouver avec des résultats biaisés. Ces projets démontrent aussi la pertinence d’une approche de type « big data » : beaucoup des résultats qui nous ont été présentés exploitaient les archives Web sans jamais aller jusqu’à la consultation des pages, en fouillant simplement les données, les métadonnées associées aux objets et aux collectes. Cela implique bien sûr des compétences tout à fait spécifiques pour ces historiens du Web, telles que l’exploitation de données quantitatives et leur visualisation graphique.

Pour conclure, la communauté IIPC semble aujourd’hui préoccupée de rendre les collections qu’elle a pu créer depuis plusieurs années immédiatement utilisables par des chercheurs d’aujourd’hui, qu’il s’agisse d’inventer des outils ou de documenter le contexte de ces archives. Cet enjeu apparaît quasiment comme une question de survie : il y a urgence à démontrer l’intérêt et l’utilité de ces collections. Les web-archivistes sont extrêmement attachés à démontrer l’importance de leur travail, qui pourtant ne fait pas de doute quand on voit qu’en deux ans, 60% des contenus Web du domaine .uk ont disparu, été déplacés ou modifiés :

De façon assez ironique, l’un des meilleurs moyens de légitimer l’usage des archives du Web aujourd’hui semble être d’inviter des chercheurs à écrire un livre sur le sujet. Numérique, bien sûr, et accessible… sur le Web !

Une réflexion sur “IIPC GA 2015, jour 1 : « context matters »

  1. Pingback: What are they saying about IIPC GA2015? | Netpreserveblog

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s