Archives du Web : une vision

Pour commencer l’année sur une note lyrique, j’ai envie de revenir sur quelques réflexions qui me sont venues lors d’IPRES et de la journée « Active Solutions » d’IIPC. En effet, à cette occasion, pas seulement parce que je me trouvais en Californie, qu’il faisait brumeux le matin et soleil l’après-midi et que San Francisco est une ville magnifique, mais aussi parce que j’étais bien entourée et parce que les organisateurs desdits événements ont fait un boulot superbe, j’ai eu l’impression de transcender la connaissance que j’avais de l’archivage du Web, ses modalités et ses finalités.

Pour comprendre, il faut dire que je côtoie l’archivage du Web depuis maintenant quelques années, géographiquement et intellectuellement, et de suffisamment près pour m’être forgé quelques idées fausses (ou idées reçues) sur cette activité. Pour les énoncer un peu comme ça en vrac :
– l’archivage du Web, c’est intrinsèquement lié au dépôt légal ;
– les utilisateurs sont des gens du futur qu’on ne connaît pas et dont on ignore les vrais besoins ;
– les gens qui font de l’archivage du Web sont une toute petite communauté avec des compétences et des besoins très spécifiques.
Et oui, il a fallu que je traverse la planète pour enfin comprendre la portée de cette activité qui se déroulait juste là, à côté de moi, sous mes yeux depuis des années.

D’abord, je me suis rendu compte que l’archivage du Web, ce n’est pas seulement le dépôt légal, et de fait, cela ne concerne pas que les bibliothèques nationales. L’archivage du Web est un ensemble de techniques qui permettent de constituer une collection locale et pérenne à partir de contenus accessibles en ligne. En fait, il y a une multitude d’applications possibles à cela : archiver des périodiques en ligne comme le fait LOCKSS, constituer des collections de sources pour des équipes de chercheurs d’une université, archiver ses propres publications Web pour en garder la mémoire, etc.
Vu comme cela, l’archivage du Web peut être utilisé par tout type d’établissement, et à une variété d’échelle. Les « private LOCKSS networks » utilisent ainsi le dispositif technique de LOCKSS, à l’origine conçu pour collecter des revues en ligne, pour collecter des archives Web partagées de toute sorte. Le service « Archive It » proposé par Internet Archive permet à des institutions qui n’ont pas les moyens de mettre en place des processus d’archivage du Web de constituer quand même ce type de collections, en se reposant sur un intermédiaire technique. Bref, dès lors qu’on est capable de cibler les besoins d’un public et de s’organiser en processus, on peut constituer une collection, dont le public en question n’est donc pas forcément lointain et hypothétique : il existe un besoin et un public pour les archives du Web, tout de suite, maintenant.
En fait, dans un monde où la plupart des médias et des contenus que nous connaissons effectuent une translation vers le Web, les archives du Web permettent d’envisager l’archivage de ce qui n’est pas archivable, c’est-à-dire tout le contexte d’une activité ou d’un événement tel qu’il transparaît à travers les publications et les conversations sur le Web. Tout est là, disponible, en ligne : les logiciels, les réseaux sociaux, les données et les sources que les chercheurs utilisent, la documentation que les utilisateurs créent eux-mêmes sur leur vie et mettent en ligne. Ainsi, la meilleure façon de donner une idée dans le futur de ce que sont les mondes virtuels comme Second Life, n’est-elle pas d’archiver les blogs, les copies d’écran, les extraits vidéo… qui sont la capture, par les utilisateurs eux-mêmes, de ce qui se passe dans ces univers…
C’est ici que cela fait vraiment sens de parler « d’archivage » du Web, car on est dans des démarches documentaires qui travaillent sur la source, le contexte, le fonds, dans une logique plus proche de l’archivistique que de la bibliothéconomie.

Là où cela devient intéressant, c’est que ces archives du Web de toute nature, ces collections, elles ont une homogénéité matérielle sans précédent. A l’image du matériau qui les constituent, les collections Web sont totalement granulaires, et intégrées : elles sont à la fois constituées d’unités très petites, et à la fois globales car toutes ces unités sont compatibles entre elles. De plus, elles sont élaborées par une communauté qui a su s’organiser pour partager ses outils, ses formats, ses processus.
Ce qui fait que les archives du Web sont en fait une grande collection partagée, techniquement et structurellement homogène. C’est la politique documentaire qui fait la spécificité des différents « nœuds » de cette grande collection, qui justifie que telle bibliothèque conserve telles données, et telle autre, etc.
Qui dit homogénéité technique et collection partagée suppose une approche de la préservation numérique cohérente et globale. Les travaux effectués sur le format WARC (qui permet de stocker les archives du Web et de les exploiter) laissent entrevoir une réflexion plus que prometteuse en ce sens : en effet ce format a été réfléchi dès le départ pour intégrer les problématiques de gestion des fichiers mais aussi de leurs métadonnées, y compris les métadonnées techniques et de provenance si nécessaires à la préservation. Il gère aussi les liens entre les fichiers, les versions, les métadonnées.
Du point de vue des stratégies de préservation, il me semble que les archives du Web nous ont fait vraiment avancer en nous obligeant à reconsidérer la traditionnelle opposition binaire entre migration et émulation. Il y a quelques années, on pensait qu’on ne pourrait jamais préserver quoi que ce soit sans migrer. Puis revirement à 180° : on s’est rendu compte qu’on n’aurait pas les moyens de migrer, et tout à coup on ne jurait plus que par l’émulation. Les stratégies envisagées actuellement sont plus subtiles, elles cherchent à combiner les deux approches, à trouver un équilibre. Il n’y aura pas de traitement unique et radical pour la conservation à long terme d’un matériau aussi divers, souple et mouvant que les archives du Web.

Évidemment, nous sommes encore au début de l’histoire des archives du Web et il y a encore des problèmes, d’énormes problèmes (c’est le mot) : d’abord la masse… Des millions ou milliards de fichiers… des centaines ou milliers de Teraoctets… des dizaines ou centaines de formats… nous sommes face à une échelle qui peut donner l’impression d’un défi un peu fou, limite décourageant.
La maturité des outils et des processus laisse encore à désirer, face à des choses qu’on n’a pas encore essayé de faire et qui sont donc encore au stade de la théorie (comme migrer l’ancien format de stockage des archives Web, ARC, vers le nouveau format normalisé WARC) : il va falloir progresser à petits pas, expérimenter, commencer petit sans se laisser démonter par l’ampleur du chemin à parcourir.
Et puis il y a le Web lui-même, dans ses composantes les plus complexes : le web caché (dans des bases de données) – le Web verrouillé (derrière des mots de passe ou des DRM) – le Web exotique et bizarre (en termes de formats de fichiers, qui chaque jour naissent et meurent…) – le Web spammé et vérolé (mais c’est quand même le Web : ne faut-il pas aussi en garder la mémoire ?)

Mais malgré tout, je me disais, là-bas à San Francisco, que cette petite communauté (mais pas si petite que ça en fait) des Web-archivistes, avec son action pragmatique, efficace, une fois qu’elle aurait avancé et résolu ces problèmes, allait nous aider à absorber d’une façon plus globale les défis de gestion et de préservation des autres types de collections numériques.
A San Francisco, j’ai eu une vision : celle d’une révolution copernicienne. De la même façon que le Web est en train d’absorber l’information du monde, les archives du Web finiront par se présenter assez naturellement comme la solution technique la plus simple pour traiter, par exemple, la collecte de machins numériques de toute sorte, le versement de ces machins dans les systèmes de préservation, la migration de gros volumes de données, le pilotage des stratégies d’émulation, la gestion des moyens, des coûts et des indicateurs, etc. etc.
Enfin, parmi les trucs (le « contexte ») que l’on va pouvoir archiver sur le Web, il y aura aussi tous les facilitateurs de préservation numérique : la documentation des logiciels et des formats par exemple.
C’est un peu fou de penser qu’aujourd’hui, on a une approche complètement dissociée de nos techniques documentaires traditionnelles et de l’archivage du Web. Ainsi, toutes les travaux de constitutions des répertoires de formats (Pronom, UDFR etc.) ont mis tout ce temps à déboucher sur une initiative expérimentale de publication dans le linked data appelée P2. Dans le linked data, c’est à dire sur le Web. Pourquoi on se tuerait à inventer des processus de réplication, de partage de données, etc. alors qu’ils existent déjà, entre le Web sémantique et les archives du Web…
Pareil pour la gestion des collections d’objets numériques. On est en train de construire des usines à gaz spécifiques pour gérer les millions de fichiers qu’on produit dans le cadre de nos ambitieux programmes de numérisation. Franchement c’est du très beau travail, mais je suis sûre qu’on finira par se réveiller un matin et se rendre compte que les bibliothèques numériques ne sont qu’une collection Web parmi d’autres. Non ? Et qu’avec l’archivage du Web, on a déjà des solutions scalables, pragmatiques, efficaces.
Il reste un truc qui me manque dans cette vision, c’est de savoir comment on pourrait rapprocher tout cela de nos réflexions sur la publication des données de bibliothèques dans le Web sémantique. Tout est une question de données qui sont là présentes sur le Web et qu’on relie entre elles. Il me semble que si on arrivait à progresser vraiment sur la publication des données structurées dans le Web sémantique, en utilisant des technos vraiment Web comme le fameux HTTP-range14 (plus connu sous le nom de « Cool URIs for the semantic Web »), on arriverait aussi à faire progresser les services qu’on est capable de construire sur les archives du Web ; de faire un peu mieux que la recherche par URL et la recherche plein-texte à pertinence relative ; et peut-être même de construire des choses intéressantes en matière de collecte ciblée et de stratégies de continuité de collection et de conservation.
Mais pour l’instant tout ceci n’est encore qu’au stade de l’intuition.

Pour en savoir plus, deux articles à lire dans l’ouvrage Les collections électroniques, une nouvelle politique documentaire (sous la dir. de Pierre Carbone et François Cavalier, éditions du Cercle de la Librairie, collection Bibliothèques, 2009) :
– « Quelle politique documentaire pour l’archivage des sites internet » par Gildas Illien et Clément Oury
– et « La conservation des documents numériques » par votre serviteuse.

IPRES 2009 (2) – les processus et l’Humain

Un deuxième thème récurrent de la conférence IPRES (après « la valeur et le temps ») c’est l’approche organisationnelle et humaine de la préservation numérique.

J’avoue que je suis arrivée à IPRES avec une attention particulière pour ce sujet, dans la mesure où je présentais moi-même un article, rédigé avec Louise Fauduet, sur les problématiques organisationnelles et humaines du numérique. Le programme m’avait laissé à penser que cet aspect serait peut traité mais en réalité, il était assez omniprésent. Ça prouve, semble-t-il, que « moving into the maintream » n’était pas seulement un vœu pieu pour le titre de la conférence, mais une réalité des actions menées par les uns et les autres.

La question des organisations a été en particulier traitée à travers celle des réseaux et de la constitution d’archives distribuées, et ce en particulier dans la présentation de Martha Anderson de la Library of Congress, et au cours du Panel qui a suivi.
Martha a présenté les résultats d’une étude réalisée par IBM pour le NDIIPP. Elle nous a montré différents modèles de réseaux d’organisations, avec un pilotage plus ou moins fort, et ce qu’ils impliquent en termes d’efforts et de coûts. Le panel portait sur la mise en place de Private LOCKSS Networks.
J’ai bien aimé la réflexion sur le passage à l’échelle de la collaboration. C’est un peu comme la commission européenne… quand on est peu nombreux on arrive à fonctionner de façon informelle, mais si on veut s’étendre et accueillir de nouveaux membres, il faut passer par une phase de formalisation des stratégies, de la politique, de la gouvernance, et aussi des méthodes d’accompagnement et de formation.
Les effets de seuil existent aussi bien sur le plan technique, quand on passe de quelques centaines de GigaOctets à plusieurs dizaines ou centaines de Téra, que sur le plan organisationnel et humain. Cela implique aussi la mise en place d’outils appropriés comme les « micro-services » de la California Digital Library ou le système proposé par Chronopolis.

L’analyse des processus et la mise en place d’outils comme des guides de bonnes pratiques pour fluidifier les processus jouent un rôle essentiel dans cette formalisation.

Il existe des initiatives telles que les travaux réalisés par le réseau allemand Nestor sur la négociation du versement (« Into the archive »), ou les résultats du projet européen Planets. Toutefois on peut se demander, et la question a été posée en ces termes, qui fait réellement de la planification de la préservation aujourd’hui… Les différentes enquêtes réalisées dans le cadre de projets européens (et je dis, différentes, à dessein car il y en a eu plusieurs, souvent apparemment redondantes…) montrent encore pas mal d’incertitudes sur les actions à prendre, les stratégies à adopter, les normes à recommander.

Le lendemain d’IPRES, j’ai assisté à la journée « Active solutions » organisée par le consortium IIPC pour l’archivage du Web, et je dois avouer que j’ai été impressionnée par le degré de maturité de cette communauté sur toutes ces questions.
Leur approche des questions techniques (comme le format WARC) est résolument pilotée par une vision de long terme qui intègre les problématiques de planification de la préservation dès le début de la chaîne. L’après-midi était consacré aux questions d’organisation et de processus.
Cette journée m’a donné à penser que les « web-archivistes », une fois qu’ils auront résolu leurs (enôôôrmes) problèmes techniques, auront tellement d’avance qu’ils seront capables d’absorber tous les problèmes de préservation numérique des bibliothèques, enfin d’en réduire l’onde de choc, un peu comme un gros air-bag. Plus que jamais, préserver la mémoire du Web m’est apparu non pas comme un défi un peu fou, mais comme une action organisée, qui a du sens dans la perspective de l’histoire et des collections.
Une grande bouffée d’espoir donc ;-)

IPRES 2009 (1) – La valeur et le Temps

La conférence IPRES 2009, dédiée à la conservation numérique, vient de se terminer. Elle était cette année accueillie par l’Université de Californie – San Francisco et organisée par la California Digital Library.

Je m’épate moi-même quand je vois la complétude avec laquelle j’avais couvert l’événement en 2006, à Cornell… Aujourd’hui, une bonne partie de mon énergie est passée sur Twitter, où la conférence était couverte en direct par plusieurs personnes (tag #ipres09). Pour ceux qui dorment la nuit, vous pouvez aussi consulter le blog de Chris Rusbridge, qui a couvert en temps réel une bonne partie des sessions, à raison d’un billet par présentation.

Pour ma part, je vais me contenter d’une synthèse assez générale.
IPRES est résolument devenu un événement incontournable pour les bibliothécaires qui gèrent des collections numériques. Cette année le thème « moving into the mainstream » laissait supposer une certaine maturité du sujet et des questionnements liés à la mise en production de la préservation numérique.

Je dois dire que j’ai été frappée par le fait qu’il existe dans la communauté un besoin assez fort de justifier l’intérêt et la valeur de l’activité, et d’articuler les temporalités de la préservation numérique – c’est-à-dire, le passé (ce qu’on essaye de conserver), le présent (ce qu’on sait qu’on voudrait conserver, ce qui est utile à nos utilisateurs actuels) et le futur (les attentes inconnues des futurs utilisateurs à l’égard d’une collection inconnue).
Démontrer la valeur est essentiel dans un contexte où la préoccupation concernant les coûts est omniprésente. Il s’agit donc d’évaluer les coûts et le retour sur investissement, et en particulier la « soutenabilité », donc pas seulement les coûts de départ, mais aussi les coûts continus qui sont nécessaires pour pérenniser l’activité une fois qu’elle a démarré.

La première « keynote » posait la question des archives privées des entreprises, et de leur intérêt public. Qu’advient-il des archives numériques d’une compagnie qui disparaît, et ce dans un monde où les compagnies tendent à disparaître de plus en plus vite ou fréquemment… L’exemple de Brobeck Closed Archive montre le type de « sauvetage » qu’on peut envisager si on intervient au moment où la société est mise en faillite.
Ensuite nous avons assisté à un panel sur les coûts et la soutenabilité, animé par des gens qui étaient impliqués dans le Blue Ribbon Task Force. Plusieurs d’entre eux ont argumenté sur le fait qu’il faut prouver la valeur de l’activité de préservation numérique au regard de l’accès et des utilisateurs actuels, pas futurs. Ainsi pour convaincre, il ne faut pas dire aux gens qu’on va les aider à préserver leur données, il faut leur dire qu’on va les aider à faire leur travail. Mais ce n’est pas évident pour tous les types de collections numériques (penser aux archives du Web…) : on ne peut pas toujours se baser sur la loi de l’offre et de la demande en supposant que ceux qui offrent (les gens qui préservent) et ceux qui demandent (les usagers) sont les mêmes, ou que les premiers connaissent effectivement les besoins des seconds. C’est un problème qu’on connaît bien en bibliothèque.

Les deux autres sessions plénières, l’une consacrée à l’archivage des mondes virtuels, l’autre aux données ouvertes de la recherche, posaient aussi la question de la valeur et du temps.
J’ai bien aimé ces deux présentations, car elles étaient très ancrées dans la réalité du Web d’aujourd’hui, posant la question de la construction de la mémoire du Web, non pas en termes de publications au sens traditionnel, mais en terme de processus, d’humain, et « d’histoire ».
Ainsi pour garder la mémoire des mondes virtuels comme second life, savoir reproduire le fonctionnement du logiciel n’est pas très utile. Ce qu’il faut, c’est être en mesure de conserver le « contexte »de ce qui se passe dans ces mondes, c’est à dire des traces de ce que les gens y vivent et de ce qu’ils en retiennent : des copies d’écran, des billets de blog, des films etc.
Mais au fait : on ne préserve pas le Monde lui-même, seulement des documents qui le décrivent… préserver les mondes virtuels m’a fait l’effet d’une utopie d’historien un peu folle.
En ce qui concerne les données de la recherche, on retombe sur l’enjeu de gérer dans la même temporalité l’ouverture des données et leur préservation. C’est le but du projet Data-pass. Il faut gérer dans un même « mouvement » l’ouverture des données, la confidentialité et les autres questions juridiques, et la problématique de réutilisation des données, le tout dans une perspective de pérenniser les données de la recherche. Quand on parle des « données », cela signifie, pas seulement à travers les vues limitées qu’on en a dans les publications (comme les articles) des chercheurs, mais aussi en rendant possible la réutilisation des données source et la création de nouvelles connaissances.

Finalement, toutes ces réflexions montraient un certain réalisme, parfois un peu désabusé, face à la préservation numérique. On voudrait bien pouvoir conserver tout, pour toujours, mais on n’en a pas les moyens, il va donc falloir choisir. On se pose aussi des questions sur ce que cela nous coûtera de ne pas faire de préservation numérique. Avec le numérique, le nouveau sens de « pour toujours » c’est « pour 10 ans ». Et il ne faut pas avoir honte de faire de la préservation très basique, au niveau du train de bits, car c’est déjà mieux que rien.
Dernière idée qui me semble importante à retenir sur ce thème : la valeur réside dans les contenus et dans l’humain, pas dans la technologie. C’est toujours utile de le rappeler.

Partager les fonctions d’archivage

La partie 6 de l’OAIS (qu’est-ce que c’est ?) intitulée « Archives Interoperability » n’est pas la plus connue du modèle. Pourtant elle n’est pas inintéressante.

Elle distingue trois modes possibles d’interaction entre plusieurs archives OAIS :
– la coopération : les archives servent une même communauté d’utilisateurs et de producteurs, donc elles partagent les mêmes standards, mais fonctionnent de manière indépendante
– la fédération : les archives servent une même communauté d’utilisateurs et partagent leur « catalogue », mais pas les fonctions d’archivage
– les archives partagées : elles mutualisent certaines fonctions (par exemple le stockage) pour réduire les coûts, mais servent des communautés d’utilisateurs et de producteurs distinctes.

Le premier modèle, la coopération, est relativement simple et permet de mettre en place par exemple des échanges d’AIP pour augmenter le nombre de copies redondantes et/ou la disponibilité du service.

Les deux autres modèles sont cependant à mon avis ambigus du point de vue du traitement des données, de l’entité « Gestion de données » et de l’entité « Planification de la préservation ».

Dans le modèle fédéré, le fait de disposer d’un catalogue commun pose la questions des identifiants d’AIP qui doivent être globalement unique d’une archive à l’autre. Je trouve le modèle un peu daté sur ce point : si tout le monde utilisait des URI on n’aurait pas de problème ;-) de même il ne me semble pas indispensable de répliquer les AIP pour fournir un service mutualisé de façon transparente pour l’utilisateur final.
L’idée de catalogue commun est aussi ambigüe : s’agit-il d’un catalogue au sens métadonnées descriptives, ou au sens de l’OAIS ? C’est à dire, est-ce que les fonctions de recherche sont purement déterminées en fonction des besoins de l’utilisateur final, ou est-ce qu’elles incluent les recherches spécifiquement techniques qui permettent, par exemple, d’élaborer un plan de migration ?
Je trouve que tout cela n’est pas très clair par rapport aux fonctions que l’on connaît habituellement dans Accès (qui doit coordonner les demandes des utilisateurs, à la fois en requêtes et en paquets) et dans Planification de la Préservation.

Dans le modèle partagé, l’OAIS préconise que pour partager le stockage il faut aussi partager l’entité « Gestion de données ». Seules les fonctions « Versement » et « Accès » restent séparées, de même qu’Administration (comment Administration peut-il être être vraiment séparé ???). Quant à la Planification de la préservation, elle n’apparaît même pas sur le schéma.
Si je devais partager mon Stockage avec mon voisin, je crois que cela me gênerait de partager mon « Gestion de données » et mon « Planification de la préservation » avec lui. Enfin, je suppose qu’il faut comprendre que comme Accès reste séparé, c’est lui qui filtre qui a le droit de requêter quoi.
La version en cours de relecture (jusqu’au 15 juin !) pour la révision quinquennale de l’OAIS ajoute une chose importante, la possibilité de partager un répertoire de formats. Mais le paragraphe ajouté me semble flou au possible.

J’aurais aimé que la partie 6.2 développe les contraintes de management des archives partagées, et pas seulement des archives fédérées. Mais je crois que j’ai loupé le coche, il va falloir attendre la prochaine révision, dans 5 ans :-(

Amis experts de préservation, lâchez vos com’s.

Identité et mémoire : la réputation des internautes sur le Web

Cet texte a été extrait d’un article rédigé récemment avec Clément Oury dans la revue Documentaliste, intitulé « Web 2.0 et mémoire : de la conversation à la conservation ». Ce passage avait dû être retiré car l’article était trop long. J’en ai profité ici pour le mettre à jour et l’enrichir de quelques nouvelles références. Merci à mes principales sources Brainsfeed, Internet Actu et Outils froids.

En faisant de l’internaute non plus un spectateur passif, mais un acteur à part entière de la production d’informations sur le Web, le Web 2.0 a profondément bouleversé les enjeux liés à la mémoire individuelle, en introduisant des technologies permettant à chacun de s’exprimer, de commenter, de contribuer, sur des types de sites diversifiés.

Dans le Web 2.0, l’internaute crée ou met en ligne des contenus qui autrefois restaient dans sa sphère personnelle. Sur Flickr, la proportion de photos de famille, d’amis ou d’animaux familiers est écrasante. Les premières études Médiamétrie sur la blogosphère (2005) montraient déjà une scission, avec une forte majorité de blogs ayant en moyenne un seul lecteur : c’était en particulier le cas des skyblogs, utilisés par les jeunes davantage pour communiquer entre eux que pour publier sur le Web (Voir par ex. Gautier Poupeau, « Blogs et Wiki, quand le Web s’approprie la société de l’information », BBF). Le succès de réseaux sociaux comme Facebook confirme un usage des technologies en ligne destiné à renforcer des liens existants, des communautés déjà soudées (Voir les premiers résultats de l’enquête « sociogeek » http://sociogeek.admin-mag.com/ portant sur l’exposition personnelle sur le Web). En parallèle, on voit se développer des tendances très fortes de création de communautés totalement virtuelles, comme par exemple sur YouTube, où un individu, seul devant sa Webcam, se lance dans une introspection dont la dimension intime est plus ou moins véridique, et autour de laquelle finit par se mettre en place un groupe de fidèles dont la croissance est soutenue par la dimension virale du média (Cf. Michael Wesh, « An anthropological introduction to Youtube », présentation à la Library of Congress, 23 juin 2008).

Or, il existe sur le Web 2 .0 une dimension paradoxale de la permanence des contenus : alors que les contenus les plus institutionnalisés ou travaillés reposent sur un investissement technologique de leur créateur (maintenance du site Web, renouvellement annuel du nom de domaine, etc.) et donc tendent à disparaître lorsque celui-ci s’en désintéresse ou n’est plus en mesure de les maintenir, les contenus générés par les utilisateurs et hébergés sur les plateformes 2.0 ont une permanence forte puisque ces plateformes continuent à fonctionner même une fois que leur auteur s’en est détourné. C’est ainsi qu’apparaissent sur le Web 2.0 des « friches », des blogs qui restent en ligne mais ne sont plus consultés ni mis à jour : ce serait le cas de 94 % des 133 millions de blogs nés en 2002 (d’après Françoise Benhamou, « Va-t-on vers la disparition des blogs ? » Rue 89, 3 décembre 2008).
Ainsi, alors que l’on voit de précieuses informations s’évanouir, d’autres ne veulent pas disparaître. D’innombrables données sont stockées, parfois à l’insu de leurs producteurs, par des sociétés commerciales, constituant un réseau d’informations personnelles sur lesquelles repose la réputation des individus. Des moteurs de recherche comme 123people se consacrent spécifiquement au recoupement de ces informations, et permettent en un clic de trouver, sur une personne, toutes les informations disponibles en ligne : photo, adresse, n° de téléphone, comptes Facebook, Twitter et autre, adresse du blog…

On parle maintenant d’identité numérique pour désigner ces données dont le recoupement pose questions. Des questions juridiques et économiques par exemple, comme celles explorées dans le rapport de la FING : Le nouveau paysage des données personnelles : quelles conséquences sur les droits des individus ? Mais aussi des problèmes techniques liés aux systèmes de gestion d’identité (voir Exposé sur les identités numériques à la Fulbi par S. Bortzmeier et Exposé pédagogique sur la cryptographie par F. Pailler pour le groupe PIN). Le site DatalossDB est un projet de recherche qui recense les incidents de pertes de données sensibles, de quoi se donner bien des frissons. D’autres projets de recherche explorent la question sous différents angles.

Alors, « Pourquoi sommes-nous si impudiques ? » En réalité, si les internautes consentent à fournir une quantité croissante d’information personnelle sur les sites du Web 2.0, c’est parce que cette information, de plus en plus, est maîtrisée. L’enjeu est moins de cacher les contenus nuisibles à sa réputation qui pourraient persister en ligne, le concept de « droit à l’oubli » s’avérant largement impraticable sur le Web, que de construire une image de soi dont l’objectif « promotionnel » tend à creuser l’écart entre la réalité et l’image donnée ou perçue, jusqu’au mensonge (Cf Hubert Guillaud, « Genevieve Bell : secrets, mensonges et déceptions », Internet Actu, 20 février 2008).
Le blog Doppelganger.name, tenu par trois consultants spécialistes en techniques managériales et en Web 2.0, étudie les rapports entre identité et réputation sur le Web : il montre comment les pratiques de recrutement sont aujourd’hui infléchies par cette réputation numérique.

Face au besoin de maîtriser son identité numérique, des ressources se mettent en place : comme cette liste de 300 et plus outils de gestion d’identité numérique ou ces conseils pour savoir comment effacer son profil sur les sites de réseaux sociaux. Pour éviter d’en arriver jusque là, on envisage de former les étudiants à la gestion de leur identité numérique, ce serait en effet la moindre des choses, et pas seulement pour des professionnels de l’information.

Publications en français sur la préservation numérique

Le projet européen DPE (Digital preservation Europe) annonce la traduction en français de plusieurs de ses publications (« briefing papers » – comment traduire ça ?).

Dans la liste on trouve :
– La conservation numérique et les archives en accès ouvert. Un accès permanent aux fonds numériques en accès ouvert
– L’évaluation des documents scientifiques : Une gageure
– Préservation du contenu de l’Audio visuel numérique
– LOCKSS: Rétablir les bibliothécaires en tant que dépositaires du contenu des revue
– Les sources ouvertes dans la préservation numérique

J’espère que leur expert traducteur de français ne va pas s’arrêter en si bon chemin, et va s’attaquer aussi à « Automating semantic metadata extraction », « A data model for preservation metadata », « Persistent Identifiers for Cultural Heritage », « INTEROPERABILITY. A key concept for large scale, persistent digital libraries », et le petit dernier né, publié le 22 septembre : « Identifier interoperability ».

Allez Jean-Pierre ! On est tous avec toi !

IPRES comme si vous y étiez

Cette année, la principale conférence internationale sur la préservation numérique, IPRES, avait lieu à Londres : elle vient de se terminer. Evidemment, je n’y suis pas allée, trop occupée à pouponner ;-) mais aussi à diverses autres activités.

Heureusement, il y a toujours des gens sympa pour bloguer les conférences ; dans ce cas précis, c’est Chris Rusbridge du Digital Curation Centre qui a blogué IPRES sur le blog du DCC.

Je n’ai pas encore tout lu mais il y a sans doute des choses intéressantes à y trouver comme ce projet InSPECT qui travaille sur les « significant properties » : les caractéristiques essentielles d’un objet qui sont nécessaires pour garantir son authenticité.

Séminaire sur la préservation numérique

Un peu de pub : l’association Aristote et le groupe PIN organise un séminaire le Jeudi 10 avril 2008 à l’Ecole Polytechnique à Palaiseau. Le thème en est : « Pérennisation de l’information numérique : les changements spectaculaires du paysage national et du contexte européen » (programme complet). Ca devrait être assez intéressant pour tous les gens qui s’intéressent à la préservation des documents numériques.

On peut s’inscrire jusqu’au 4 avril. Le séminaire sera aussi retransmis en direct sur le Web (voir mode d’emploi ici).