Outils d’extraction de (méta)données

Aujourd’hui, je me suis beaucoup amusée avec deux de ces merveilleux outils qui permettent de rentrer un ou plusieurs fichiers, et de sortir complètement autre chose (en général, du XML, sinon où est l’intérêt…) Je trouve cela particulièrement réjouissant.

MARCXML converter est comme son nom l’indique un convertisseur de fichiers MARC (en sortie ISO 2709) en xml suivant le schéma MARCXML. Evidemment, il faut des notices MARC21 en entrée, sinon ça marche pas.

Dans un autre genre, la National Library of New Zealand propose en téléchargement son Metadata extraction Tool en version stable. Mais à quoi cela sert-il, me direz-vous ? Cela sert à extraire les données contenues dans les en-têtes de fichiers TIFF, JPEG, PDF, BMP, Open Office, Word, et bien d’autres. Mais à quoi cela sert-il, me direz-vous encore ? Parmi ces informations, on trouve un certain nombre de données sur le fichier (son auteur, sa date de création, etc) ainsi que des données techniques nécessaires pour la conservation à long terme (le format, la taille, etc) – l’objectif de la NLZ. Grâce à l’outil d’extraction, on peut obtenir des sorties en XML de ces données, pour un fichier ou pour plusieurs à la fois (ce qu’on appelle les objets complexes). Apparemment il est assez simple de changer le schéma XML de sortie pour mettre celui qui nous fait plaisir, ce qui fait de cet outil une vraie perle.

Tous deux fonctionnent avec une machine Java récente et doivent être installés (mais ils sont faciles à utiliser et à installer sous Windows).

Dans le genre outil magique, il y a aussi le Servoo qu’utilise Lodel pour convertir les fichiers Word ou Open Office en XHTML, et en plus, lui, il fait ça en ligne à distance ! Mais à force que tout le monde en parle, ça commence à se savoir.

3 réflexions sur “Outils d’extraction de (méta)données

  1. Salut Manue,

    Si MARCXMLConverter ne comprend que du Marc21, c’est parce qu’il ne fonctionne pas avec le schéma marcxml que tu cites (à savoir leur « slim »), mais avec une ancienne version qui codait et contrôlait en dur les zones MARC21. Au contraire, la version maigrichonne de marcxml ne prétend qu’à exprimer les contraintes ISO 2709, c’est-à-dire les contraintes communes à tout format MARC (MARC21, UNIMARC ou autre). De ce fait, les différents outils qui convertissent vers ou à partir de marcxml (slim) marchent aussi pour des notices UNIMARC, à l’encodage des caractères près (ex: MarcEdit).
    Pour être exact, il faut ajouter que ce schéma quasi-pan-MARC avait quelques biais Marc 21 qui sont sur le point d’être levés dans la révision que l’ISO en fait. Eh oui, marcxml va devenir le nouveau format d’échange des notices MARC. A terme, il ressemblera à cela.

    Quant aux Néo-zélandais, en effet, encore une fois, Bravo à eux. Ce est encore plus beau qu’un 45-6 ! (Je suis un peu partial, comme tu le sais).
    A lire, leur fresque sur leur stratégie globale

    et à voir peut-être une récente application de cette stratégie : une base de données d’images nationale mais distribuée. A partir d’une liste de résultats agrégée, l’interface centrale renvoie sur un site local, par exemple :
    http://timeframes1.natlib.govt.nz/rootcollection/nlnz-result?http://timeframes1.natlib.govt.nz/0_E-086-q-014
    Par contre, Matapihi semble avoir des soucis avec Firefox. Personne n’est parfait ; tout le monde peut « faire figua »quelque part.

  2. Très cher et lointain ami, merci pour ce commentaire éclairant et MARCant. Merci aussi car grâce à toi (et à MarcEdit) j’ai en effet résolu mon problème, et j’ai pu extraire à loisir en XML tout un paquet de notices en ISO 2709 tirées d’un MARC exotique pas du tout 21. Mais c’est vrai qu’il y avait des carrés. Et au fait, je me suis permis d’hypertextifier les liens de ton commentaire, pour ma commodité personnelle. J’espère que tu ne m’en voudras pas.

  3. Salut,

    merci de m’avoir hypertextifigué, c’est plus joli et cela ménage un troublant suspense (yeux bandés, saut dans le vide).
    Pour revenir à nos carrés, MARC4J (http://marc4j.tigris.org/doc/) semble plus riche que MarcEdit question encodage des caractères, notamment si ton MARC exotique cause iso 5426. Je n’ai pas encore essayé.

    uia i runga, tuia i raro
    Tuia i roto, tuia i waho
    Tui, tui, tui, tui-a

    Yann

Les commentaires sont fermés.