Aller à : navigation, rechercher

Maarch RM/Administration technique

Les archives numériques, à l'inverse des archives physiques, dissocient le support et le contenu. Le système d'archivage électronique permet d'assurer la pérennité des documents grâce à deux dispositifs : la gestion du stockage sur les supports et la gestion des contenus numériques.

Stockage

Le stockage définit les mécanismes mis en œuvre pour assurer la persistance de l'information numérique et particulièrement les opérations d'écriture, de lecture et de suppression des flux binaires sur divers supports.

Sites de stockage

Les sites de stockage représentent les supports de l'information numérique, c'est-à-dire les dispositifs sur lesquels sont stockés les contenus binaires. Il existe de nombreux types de support pour la persistance des documents numériques :

  • systèmes de fichiers réinscriptibles tels que des disques durs, locaux ou en réseau (HDD, NAS/SAN)
  • supports WORM (Write Once Read Many) tels que disques optiques numériques, CD-R, CD-WORM, DVD-D
  • services de stockage dans le nuage
  • base de données (stockage BLOB)

Maarch RM livre en standard un connecteur pour les systèmes de fichiers réinscriptibles, et propose une interface de programmation pour le branchement d'autres technologies.

Ce panneau d'administration permet de déclarer les sites de stockage des documents numériques utilisant une technologie de stockage parmi celles implémentées.

Liste

L'administrateur accède à la liste des sites de stockage par le menu Administration >>> Gestion du stockage >>> Sites de dépôt

MaarchRM repositories.png

Le bouton + Nouveau en haut à droite de la liste permet d'afficher le formulaire de saisie des informations d'un nouveau site de stockage.

A droite de chacune des lignes représentant un site de dépôt existant, un bouton permet d'afficher le formulaire de modification des informations du site.

Informations du site

MaarchRM repository.png


Un site de dépôt possède les caractéristiques suivantes :

  • un nom : ce nom doit être choisi pour permettre d'identifier le support dans les autres écrans, il devrait donc être unique.
  • un type : il s'agit de la technologie utilisée par le service de stockage (fileSystem = système de fichiers réinscriptible)
  • un chemin : c'est la chaîne qui permet d'accéder au support. Pour un système de fichiers, c'est le chemin vers la racine de l'arborescence de stockage à partir du système d'archivage. Pour un serveur en ligne, il pourrait s'agir de l'URL, pour une base de données, de la chaîne de connexion.

Le service de stockage peut accepter des option ou paramètres supplémentaires pour son utilisation. Par exemple, le système de fichiers réinscriptible accepte un masque de chemin répertoire contenant des variables pour déterminer dynamiquement le nom des sous-répertoire de stockage des documents déposés, un système en ligne demandera un nom d'utilisateur et un mot de passe, etc.

Ces options sont configurables dans l'écran, sous la forme d'une liste de paramètres nommé. Il faut saisir un nom et une valeur pour l'option, puis utiliser le bouton + à droite pour ajouter à la liste. Sur les options déjà configurées, un bouton représentant une poubelle permet de supprimer l'option.

Le nombre et la nature de ces options est spécifique au service de stockage utilisé, il faut donc se référer à la documentation de ce dernier pour connaître les possibilités de configuration à l'exécution supplémentaires utilisables.

Grappes de stockage

Le système d'archivage électronique n'accède pas unitairement aux services de stockage. Il utilise des structures logiques sous la forme de grappes de stockage (clusters) qui regroupent un ou plusieurs sites utilisés pour la pérennisation des contenus.

Liste des grappes

L'administrateur accède à la liste des grappes de stockage par le menu Administration >>> Gestion du stockage >>> Grappes de dépôt

MaarchRM clusters.png

Le bouton + Nouveau en haut à droite de la liste permet d'afficher le formulaire de saisie des informations d'une nouvelle grappe de stockage.

A droite de chacune des lignes représentant une grappe de dépôt existante, un bouton permet d'afficher le formulaire de modification des informations de la grappe.

Informations d'une grappe de stockage

MaarchRM cluster.png


Une grappe de dépôt possède les caractéristiques suivantes :

  • un nom : ce nom doit être choisi pour permettre d'identifier le support dans les autres écrans, il devrait donc être unique.
  • une description
  • une liste de sites de dépôt : Ce sont les sites utilisés lorsque le système accède à la grappe pour les opérations d'écriture, de lecture et de suppression, et précise la priorité d'accès entre les sites de la grappe pour chacune de ces opérations.

Pour ajouter un site de dépôt à la grappe, il faut choisir un site existant dans la liste proposée. Chaque site ne peut être utilisé qu'une seule fois par grappe. Ensuite, il faut définir la priorité pour chacune des opérations grâce à un chiffre, puis utiliser le bouton + Ajouter.

La liste des sites déjà utilisé à droite de l'écran permet de connaître leur nom et les priorités définies. Un bouton représentant un poubelle permet de supprimer le rattachement du site. La suppression du rattachement n'entraîne pas la suppression du site en question.

Priorité en lecture

La priorité en lecture permet de définir dans quel ordre le système d'archivage accèdera aux sites de la grappe pour lire les contenus numériques.

Le site de priorité la plus haute, donc d'ordre le plus bas, est accédé en premier.

Si deux sites ont été définis avec la même priorité, l'un ou l'autre seront accédés aléatoirement pour répartir la charge.

Si la ressource est bien retrouvée et conforme sur le site, elle est renvoyée à l'utilisateur.

Dans le cas contraire, le système émettra une alerte dans le journal du cycle de vie de l'archive et poursuivra sa tentative lecture sur le site de dépôt de priorité en lecture immédiatement supérieure (ou égale), et ainsi de suite jusqu'à ce qu'il n'y ait plus de site disponible.

Si tous les sites ont été accédés sans retrouver l'archive, une exception est levée et l'utilisateur sera informé de l'impossibilité de lui délivrer le contenu.

Priorité en écriture

La priorité en écriture permet de définir dans quel ordre le système d'archivage accèdera aux sites de la grappe pour écrire les contenus numériques.

Le site de priorité la plus faible est utilisé en premier.

Si deux sites ont été définis avec la même priorité, l'écriture aura lieu simultanément sur les deux. Ce mécanisme permet de réaliser une copie de sécurité sur un site distant dès le versement des documents archivés.

Les sites de priorité d'écriture plus basse pourront être utilisé lors d'écritures ultérieures, par appel à un processus d'arrière plan de recopie.

Priorité en suppression

La priorité en écriture permet de définir dans quel ordre le système d'archivage accèdera aux sites de la grappe pour détruire les contenus numériques.

Dans le cas d'une suppression d'archive, elle s’opère sur l'ensemble des copies et ne tient pas compte de cette valeur.

Un processus asynchrone permet, dans le cadre de migrations de support, de réaliser une suppression sur le site de priorité la plus haute (ordre le plus bas) après une écriture sur des sites secondaires par exemple.

Formats

La gestion des formats de contenu numérique constitue le second aspect central dans la gestion de la pérennisation.

Maarch RM s'appuie sur un référentiel interne des formats basé sur plusieurs référentiels publics:

  • le référentiel PRONOM des Archives Nationales du Royaume-Uni. Il fournit un identifiant unique (PUID pour PRONOM Unique Identifier) et des caractéristiques pour plus de 1200 formats à ce jour.
  • le référentiel de description des formats FDD (Format Description Document) de la Bibliothèque du Congrès US

Gestion des référentiels

PRONOM

Le référentiel PRONOM est trouvé sous la forme d'un fichier XML de signatures principal et d'un fichier XML pour les formats conteneurs.

Il est livré par défaut dans une version à date, dans le répertoire des données, mais la configuration permet d'utiliser un autre fichier plus récent ou localisé ailleurs :

[digitalResource]
; Droid signature files can be found at http://www.nationalarchives.gov.uk/aboutapps/pronom/droid-signature-files.html
droidSignatureFile = "/var/www/laabs/data/maarchRM/droidSignatureFiles/DROID_SignatureFile_V82.xml"
droidContainerSignatureFile = "/var/www/laabs/data/maarchRM/droidSignatureFiles/container-signature-20150327.xml"

Les versions mises à jour fréquemment des deux fichiers de signature sont disponibles sur la page http://www.nationalarchives.gov.uk/aboutapps/pronom/droid-signature-files.htm

FDD

Le référentiel FDD est trouvé sous la forme d'une collection de fichiers XML de documents de description.

Il est livré par défaut dans une version à date, dans le répertoire des données, mais la configuration permet d'utiliser un autre répertoire plus récent ou localisé ailleurs :

[digitalResource]
; FDD XML files can be downloaded at http://www.digitalpreservation.gov/formats/fddXML.zip
fddDirectory= "/var/www/laabs/data/maarchRM/fddXML"

Liste des formats

A partir de ces référentiel, Maarch RM extrait la liste des formats, permet d'identifier le format des ressource numériques par un système de signatures externes et internes et de consulter la base de connaissance des formats.

MaarchRM formats.png

En bas à droite de l'écran, une zone de chargement permet de glisser/déposer ou de sélectionner par clic un fichier dont on souhaite identifier, valider et caractériser le format et calculer les informations techniques.

MaarchRM resourceInfo.png

Règles de conversion

La pérennisation des contenus numériques nécessite qu'ils soient encodés dans des formats pérennes. Lorsque cela n'est pas le cas, lors du versement ou lorsqu'un format devient obsolète ultérieurement, il est nécessaire de procéder à la migration du contenu vers un format pérenne.

Maarch RM permet de définir des règles de conversion et de brancher des services de conversion de formats.

Services de conversion

Les services disponibles sont déclarés dans la configuration. La déclaration se présente sous la clé “conversionServices” avec pour structure :

conversionServices = "[
   {
       'serviceName'     : 'dependency/fileSystem/plugins/libreOffice',
       'softwareName'    : 'LibreOffice',
       'softwareVersion' : '4.4.2.0',
       'inputFormats'    : ['fmt/412', 'fmt/291'],
       'outputFormats'   : {
           'fmt/18' : {
               'extension' : 'pdf',
               'filter' : 
           },
           'fmt/19' : {
               'extension' : 'pdf',
               'filter' : 
           } 
       }
   }
]"

Pour chacun des services un ensemble d’informations est nécessaire :

  • serviceName : déclare le chemin relatif depuis la racine du framework vers l'implémentation du service de conversion.
  • softwareName : défini le nom de l’application réalisant la conversion.
  • softwareVersion : défini la version de l’application réalisant la conversion.
  • inputFormats : tableau de format d’entrée convertible par le service de conversion.
  • outputFormats : tableau de format de sortie possible par le service de conversion.


Règles de conversion

Il s'agit pour l'administrateur de déclarer quels sont les règles disponibles pour convertir des contenus à partir de formats initiaux (source) vers des formats pérennes (cible) en utilisant les services de conversion configurés.

L’administrateur doit renseigner trois champs :

  • Le format d’entrée
  • Le service de conversion disponible pour le format d’entrée choisi
  • Le format de sortie disponible par le service de conversion sélectionné

Edition conversion rule.png

L’administrateur clique ensuite sur le bouton “Enregistrer” (bouton vert) pour ajouter la règle de conversion dans l’application. Le bouton “Annuler” (bouton orange) permet de ne pas enregistrer et de retourner à la page d’index des règles de conversion.

Liste des règles

L'administrateur accède à la liste des règles de conversion à partir du menu de l'application Administration > Formats > Règles de conversion

Index conversion rule.png

La totalité des informations des règles de conversion sont indiquées.

Il est possible :

  • De faire une recherche par le filtre du tableau
  • De pouvoir supprimer une règle de conversion (bouton rouge)
  • D’ajouter une règle de conversion (bouton dans l’entête du tableau)


Informations d'une règle de conversion

Niveaux de service

Le niveau de service est le paramétrage de la quantité et de la nature des opérations techniques qui doivent être réalisées pour un ensemble d'archives au moment du dépôt et au cours de leur conservation.

Il met en application les règles et utilise les référentiels définis précédemment.

Il est précisé de trois manières, chacune annulant et remplaçant la précédente :

  1. dans l'accord de versement utilisé pour un ensemble de versements par bordereau
  2. dans le bordereau d'échange spécifiquement pour celui-ci
  3. dans les métadonnées de l'archive versée, spécifiquement pour cette archive
Accord de versement
 |_ Niveau de service (#1)
 |_ 0..* Bordereau
          |_ Niveau de service (#2)           
          |_ 0..* Archive
                   |_ Niveau de service (#3)  

Liste des niveaux de service

L'administrateur accède à la liste des niveaux de service par le menu Administration > Gestion de l'archive > Niveaux de service.

MaarchRM serviceLevels.png

Un bouton en haut à droite + Nouveau permet d'afficher le formulaire de saisie des informations d'un nouveau niveau de service.

Dans la liste des niveaux existants, des boutons en fin de ligne à droite permettent d'afficher le formulaire de modification des informations du niveau ou de supprimer celui-ci.

L'un des niveaux de service de la liste est défini comme niveau par défaut. Lorsque l'information de niveau de service est omise dans les données de gestion transmises au versement, ce niveau sera utilisé par défaut. Pour changer le niveau par défaut, il faut cliquer sur le bouton qui apparaît dans la même colonne lorsque la souris est placée sur une autre ligne.

Détail d'un niveau de service

MaarchRM serviceLevel.png

Le niveau de service possède les propriétés suivantes :

  • une référence : il s'agit d'un nom unique qui sera utilisé pour identifier le niveau dans les écrans et métadonnées des archives
  • des indicateurs de fonction : ce sont les options de contrôle des archives lors du versement, définis plus bas.
  • une grappe de stockage : elle sera utilisée lors du dépôt

Les fonctions disponibles à ce jour dans Maarch RM pour le niveau de service sont les suivantes :

Nom

Description

Détection de format

Déclenche le processus d'identification du format, afin de déterminer l'identifiant PRONOM du format de contenu utilisé. Si cette option est désactivée, l'information de format devra être transmise ans le bordereau, faute de quoi aucune information ne sera rattachée au document d'archive, ce qui rend impossible l'établissement des règles de conversion.

Validation de format

Déclenche le processus de validation du format, afin de valider le respect des spécifications du format prétendu être utilisé. Si cette option est désactivée, le document sera considéré comme valide.

Contrôle antivirus

Déclenche le processus de contrôle antivirus sur les contenus. Attention, ce contrôle est consommateur de ressources et peut s'évérer assez long. Il est recommandé de placer le sas d'échange sous contrôle permanent par un logiciel tiers.

Conversion de format

Déclenche le processus de conversion du format, lorsque ces dernières sont transmises dans un format non pérenne qui fait l'objet d'une règle de conversion active.


Extraction des métadonnées*

Déclenche le processus d'extraction des métadonnées et de caractérisation du contenu (documents bureautiques, PDF, balisés, média, image), pour l'indexation automatique.

Extraction du texte*

Déclenche le processus d'extraction du texte des contenus (documents bureautiques, PDF, balisés, média avec piste texte, images TIFF), pour l'indexation plein-texte.

* non activé dans cette version