Elements Archivage

De Maarch // Wiki.

Aller à : Navigation, rechercher


Dernière mise à jour le 16/06/2011

Sommaire

Maarch et l'archivage à valeur probante

Introduction

Ce document dresse l'état de l'art des exigences en terme de SAE. Cet état de l'art représente une synthèse entre plusieurs normes et standards :

  • ISO 14721, aussi appelée OAIS, pour la conservation à très long terme de ressources numériques
  • AFNOR NFZ42-013 : norme française pour l'archivage électronique
  • MOREQ2 : standard européen pour la définition d'un SAE.

L'analyse détaillée de MoReq2, et son implémentation dans Maarch se trouve sur le site http://moreq2.maarch.org.

Il constitue aussi la feuille de route de l'application : toutes les exigences ne sont pas présentes dans la version actuelle. Chaque exigence est commentée et renvoyée à la documentation correspondante, avec mention de la version présente ou future.

Les dates prévisionnelles de sortie des versions sont :

  • 1.2 : Version de production stable, disponible en package et sur le SVN. Le SVN peut contenir des correctifs mineurs suite aux retours utilisateurs. Si vous le pouvez essayez systématiquement d'installer Maarch à partir du SVN. Cette version intègre l’OAIS, le cycle de vie, la compression. Voir les notes de release.
  • 2.0 : Sortie prévue 4ème trimestre 2011. La 2.0 est le second volet d'un projet d'ampleur sur lequel nous travaillons (Gendarmerie Nationale). Cette version présentera des outils d'exploitation gravitant autour du SAE.

Synthèse des exigences

Dans les tableaux, lire :

Exigence : Texte de l'exigence Version Observations : Observations éventuelles

Gestion du contexte d'archivage

Gestion des entités juridiques : Création et gestion des organisations, services et contacts

Gestion des liens hiérarchiques et historiques entre ces éléments.

Gestion des propriétés de ces éléments (coordonnées…)

Gestion différenciée des producteurs et des services versants

1.1 Apporté par le module de gestion des entités : création d'une organisation avec possible synchronisation LDAP. Rattachement, déplacement des utilisateurs dans l'organisation. Pour ce qui concerne, les autorisations de versement, les utilisateurs doivent être placés dans des groupes de profil disposant des droits sur les fonctionnalités de versement.

Pour en savoir plus :

Gestion des conventions (profils SEDA, PRESTO, PES, modalité de transfert…) avec le service versant 2.0 Nous travaillons avec un partenaire sur l'implémentation du protocole SEDA. Attention, pour chaque flux non déjà répertorié dans le protocole, il faut définir et déclarer la forme du message SEDA (actuellement en version 0.2).
Gestion des contrats de service (règles d’archivage) avec le service producteur

Création de règles hiérarchisées : Chaque règle dispose d’un identifiant et d’un titre uniques.

Elle doit préciser :

  • un sort final
  • une motivation
  • une durée de conservation et un événement déclencheur* ou une date de sort final
  • une description
  • une référence
1.2 Maarch permet la définition de politiques d'archivage, identifiés de façon unique et disposant d'une description. La politique comprend un ensemble de cycles, dont le dernier correspond au sort final. Les cycles sont organisés au travers d'un workflow, dont la transition entre les états s'opère par différents facteurs : date, durée, état de la ressource, indicateur externe, etc. Ceci donne un système puissant et surtout très souple.

Pour en savoir plus :


↑

Capture des documents et de leurs métadonnées [OAIS-entrée]

Transferts totalement automatisés avec profils et processus prédéfinis et validés en amont 1.1 Apporté par l'utilitaire Maarch AutoImport. Les documents à verser sont déposés dans un sas et pris en charge par l'AutoImport. Chaque lot de versement est instancié dans la base Maarch et traçé. Les ressources gardent la mémoire du lot de versement.

Pour en savoir plus :

Transferts partiellement automatisés avec profils et nécessité de validation et/ou saisie de compléments de métadonnées 1.1 Les ressources versées en masse font alors l'objet d'un complément de qualification, grâce au module de vidéocodage, ou d'un écran de post-indexation.

Pour en savoir plus :

  • Module de videocodage (doc en cours)
Transferts manuels, nécessitant une interface utilisateur permettant de saisir les métadonnées et de rattacher les fichiers et une interface RM pour valider et compléter les métadonnées 1.1 Le versement transactionnel est un des points forts de Maarch. Le document à verser est présenté sur une partie de l'écran, et les metadonnées présentent de nombreuses assistances à la saisie, dont la capacité à glisser/déplacer le texte du document vers les champs d'index. Nous avons développé des connecteurs vers la plupart des scanners bureautiques; dans ce cas le versement est initié par l'appui sur le bouton "SCAN" du dispositif de numérisation.

Le temps moyen constaté pour le versement transactionnel est de 30s, numérisation inclue.

Pour en savoir plus :

Transferts synchrones automatisés, dont l'interface utilisateur est fournie par une application tierce. 1.1 Maarch propose de nombreux Web Services, dont un WS de versement synchrone.
Sécurité du versement : Contrôle d’intégrité du versement original; Vérification signature bordereaux de versement (conservation attestation de vérification + listes révocations…), scellement, signature électronique (signature bordereau versement pour décharge // prise en charge) avec Horodatage. Projet Ceci est majoritairement du ressort du projet, qui doit prévoir les contrôles amont et les procédures de sécurisation du versement. Maarch propose au niveau des mécaniques internes un calcul d'empreinte systématique. L'algorythme de l'empreinte est défini au niveau du type de zone de stockage. Maarch propose aussi l'appel à des fonctions de signature électronique et horodatage, au moment du versement, ou au moment de la constitution des AIP.
Acheminement et contrôle des formats des documents capturés :
  • Acheminement des documents du Producteur vers le SAE
  • Contrôle des formats : liste formats autorisés, vérification conformité fichier-format
  • Extraction/contrôle des métadonnées (à minima, métadonnées obligatoires ; compatibilité et conformité avec profils)
  • Enrichissement des métadonnées obligatoires pour l’intégration au SAE (type de docs, communicabilité, mots clés, rattachement plan classement, ressources infra…)
1.1, Projet, outil tiers Maarch est associé à un projet collaboratif équivalent aux fonctionnalités d’Axway/CFT pour le transfert sécurisé des documents sur le WAN.

A réception, l’intégration avec cet outil effectue un contrôle de format (JHOVE) + un contrôle fonctionnel à définir. Des messages structurés ou libres peuvent être retournés au « client Â» émetteur. L’outil assure l’intégrité des documents transmis en mode synchrone ou asynchrone, et dispose de capacités de gestion de la bande passante. Toutes transmissions sont tracées et supervisées au niveau de la console d’administration. Les clients peuvent être anonymes ou identifiés au préalable. Les transferts sont chiffrés. Les documents tombent dans une zone de stockage « SAS Â». A ce moment on peut considérer qu’ils sont sécurisés par le système.

Ce logiciel sera présenté très prochainement.

Le contrôle de format des metadonnées est en revanche assuré par Maarch AutoImport, ainsi que la génération automatique de métadonnées

Pour en savoir plus :

  • <lien sur projet de transfert de fichier>
Historique et reporting des entrées
  • Gestion d’un historique des entrées
  • Reporting des captures
1.1 Tous les évènements relatifs au versement sont enregistrés dans une table d'historique, consultable en ligne dans l'administration. Il existe un historique des évènements transactionnels et un historique des batchs (Ex: import de masse, application du cycle de vie).

En version 2.0, enregistrement des évènements en base, en fichier ou au format RFC, et distinction entre évènements système et fonctionnels.

↑

Gestion du stockage électronique [OAIS-Stockage]

Organisation de l'archive : Les ressources électroniques figurent dans des paquets d'archivage garantissant l'intégrité et la pérennité de l'archive. 1.2 Le module lifecycle dispose d'une mécanique qui procède à l'empaquetage des ressources dans des AIP (Archiving Information Package) au sens d’OAIS.

Chaque paquet (autoporté) contient une empreinte et/ou une signature émise par le serveur (à condition de disposer d’une infrastructure de signature serveur). La structure du paquet respecte strictement la norme OAIS : elle contient le ou les ressources électroniques, leurs métadonnées, les règles de sécurité associées, l’historique de versement/traitement, ainsi que le guide pour la lecture du paquet. Le module contient des algorythmes de compression spécifiques à utiliser en combinaison avec les AIP pour atteindre des ratios de compression de 1:15.

Pour en savoir plus :

Gestion de l’espace de stockage et des alertes relatives à ce dernier . 1.2 Les zones de stockage sont typées, ce qui permet de définir plusieurs zones (eq. plusieurs supports) de même type. Le type de zone nous renseigne sur le format des conteneurs AIP, leur capacité, leur mode de compression et de contrôle d'intégrité. La zone nous renseigne sur la localisation précise, et l'espace restant disponible, entre autres.

Maarch supporte le stockage multiple d'une ressource, avec gestion de la priorité de restitution, bascule automatique en cas de défaillance, et cache local.

Pour en savoir plus :

↑

Gestion pérenne des formats [OAIS-Planification de la pérennisation]

Formats supportés :
  • Fichiers produits aux formats Adobe Acrobat (PDF et PDF/A)
  • Pour les fichiers bureautiques : les fichiers produits à partir des logiciels des suites Microsoft Office et Open Office dans leurs différentes versions successives,
  • Pour les fichiers de données : fichiers produits aux formats texte ou XML,
  • Pour les fichiers images : fichiers produits aux formats GIF, JPG, TIFF, PNG, raw
  • Pour les fichiers vidéos : fichiers produits aux formats MPEG,
  • Pour les fichiers sons : fichiers produits aux formats MP3 et WAV.
1.1 Tous ces formats sont supportés. Sauf cas particulier, Maarch n'est pas concerné par les formats de documents. Il est du ressort du projet de positionner en entrée des documents dans un format reconnu par les normes ou le métier (Ex: DICOM dans le médical).
Veille et recyclage :
  • Outils de migration de masse des documents et de leurs métadonnées de pérennisation.
  • Outils de migration de masse des enveloppes de métadonnées (XML obsolescent… !!!)
  • Statistiques sur les formats susceptibles d’obsolescence
2.0 Le projet en cours prévoit des outils de contrôle périodique des archives, ainsi que de migration de masse de format. Il est prévu que tous ces développements, qui ne touchent pas à proprement parler au coeur du produit, soient reversés à la communauté, aussi les faisons-nous figurer sur la feuille de route 2.0.

↑

Interface d’accès aux documents [OAIS-Accès]

Avant de fournir toute réponse, le SAE doit appliquer les règles de contrôle d’accès (documents et certaines métadonnées « sensibles Â»). 1.1 La politique de sécurité est essentiellement basée sur des règles de filtrage, qui s'appliquent dans tous les cas, quelque soit le canal de diffusion des ressources (recherche directe, par lot, url, ou services WEB).

Pour en savoir plus :

Recherche sur les ressources en 2 temps :
  • Indication de 1 ou plusieurs critères de recherche
  • Affichage du nombre de réponses et d’une liste de réponses, puis choix dans la liste (avec possibilité de choix multiple pour impression ou restitution)


  • Recherche sur les contenus de documents textuels croisée avec métadonnées (exigence MoReq)
1.2 Maarch dispose de fonctions de recherche directe, croisable avec de la recherche plein texte. Le moteur plein texte utilisé est l'implémentation PHP de Lucène.

↑

Récupérée de « http://wiki.maarch.org/Elements_Archivage »
Language