Portail / La gestion électronique de documents(Sommaire)

La gestion électronique de documents.

Mise à jour du 05/05/2021

La disparition progressive des documents papier au profit des documents numériques pose deux grands problèmes :

  1. la conservation sur une longue durée de ces documents ;
  2. le recherche d'une information précise au sein de cette pléthore de documents.

Où et comment s'inscrit l'emploi d'une GED.

La plupart des utilisateurs utilisent le système de fichier comme "outils" de travail documentaire. Le principal, et quasi seul outil, est l'explorateur de fichiers. Cela est vrai quel que soit le système d'exploitation sous-jacent (Linux, Windows, Macintosh, etc.).

Au plan de la sûreté, cette approche est excessivement dangereuse : il est tellement facile de modifier le mauvais fichier voir de le supprimer accidentellement. C'est tellement vrai que les concepteurs de systèmes ont ajouté des "poubelles" aux explorateurs de fichiers (qui sont en plus un risque sécuritaire). Que dire des multiples copies dans divers branches (doublons) qui amènent souvent à modifier une version erronée... Sans une politique de sauvegarde efficace et correctement mise en oeuvre c'est tout simplement du "suicide bureautique".

Au plan de la sécurité, les pirates ont bien compris comment exploiter cette mauvaise habitude. Il n'est pas très étonnant que les rançongiciels (ransomware), ces programmes qui chiffrent vos fichiers à votre insu et vous fournissent le mode de déchiffrement contre paiement, prolifèrent avec autant de succès aujourd'hui. S'ils accèdent au système de fichier c'est perdu pour vous. La seule façon de l'éviter est l'emploi d'un très bon anti-virus et la mise en oeuvre d'une politique drastique d'installation des extensions (plug-ins, add-on) sur les navigateurs comme sur les clients de messagerie.

Enfin, au plan de l'emploi, c'est tout sauf pratique. La multiplication des répertoires, l'impossibilité de dupliquer (simplement) un même fichier sur des branches différentes de l'arborescence de fichiers et la tendance naturelle de tout utilisateur à ne pas trier sur le moment les fichiers qu'il reçoit conduisent à créer des dépôts documentaires brouillons où l'utilisateur se perd peu à peu. Nous n'avons même pas eu besoin d'aborder les problématiques du travail à plusieurs sur une arborescence de fichiers partagée pour constater à quel point cette approche est finalement contre-productive.

L'emploi d'une GED bien conçue a pour objectif d'éliminer ces écueils. Le système de fichier n'est utilisé que pour modifier localement un document. La modification achevée, le document est mis à jour dans la GED et peu importe ce qui peut arriver à votre système de fichier, voire à votre machine, vos documents seront toujours accessibles. Fini le risque de perdre des documents que ce soit lié aux pannes matérielles, aux rançongiciels ou aux virus.

Toutefois, changer les habitudes surtout lorsqu'elles ont été consolidées par le temps n'est pas si facile. "Se familiariser" avec un outil de GED nécessite un effort au départ ne serait-ce que celui de l'apprentissage. L'objectif de cet article et des autres et de vous aider dans cette démarche.

Les défis à relever.

Les premiers écrits qui marquent la fin de la préhistoire et le début de l'Histoire (environ 3 500 ans avant notre ère) témoignent encore aujourd'hui de l'inventivité des hommes. De même, de nombreux manuscrits et ouvrages imprimés ont traversé les siècles pour notre plus grand bienfait. Pourra-t-on en dire autant de nos documents numériques dans 3 500 ans ? C'est peu probable car aucun système numérique actuel ne saurait survivre à une telle période sans parler de l'évolution des formats qui rendent obsolètes leurs lecteurs. Il est utile d'éclairer cela d'un exemple.

En 1987, la société Borland (aujourd'hui disparue) rachète et fait considérablement évoluer un logiciel de traitement de texte qu'elle renomme Sprint. Ce n'est qu'en 1995 (soit 8 ans plus tard) avec la sortie de Windows 95 que le traitement de texte Word de Microsoft créé en 1983 a commencé à se faire connaître. Alors que Sprint était conçu pour MS-DOS (mode console), le succès grandissant de Word était dû au mode graphique WYSIWIG (What You See Is What You Get). Durant la dizaine d'années d'existence de Sprint, des centaines de milliers de documents dont certainement de très important ont été créés. Aujourd'hui, un peu plus de 30 ans plus tard, nous serions parfaitement incapable de lire ces documents. On est très loin des 3 500 ans...

Le second défi tient à la quantité phénoménale d'informations produites. La mise à disposition de gros volumes de stockage à bas coût, Internet et le "copier-coller" sont à l'origine d'une production sans fin de documents. Il suffit de compter le nombre de pièces jointes dans ses courriels pour s'en convaincre. La production documentaire est le résultat d'une machine infernale qui s'est emballée. Tout le monde écrit sur tout au plus grand mépris de la logique, du bon sens et même de la réalité. Comment faire la part des choses pour extraire les documents qui font sens ou qui présentent un réel intérêt ?

La troisième difficulté consiste à permettre à un groupe de personnes, qui peuvent avoir des objectifs différents, de partager et collaborer autour d'un même fonds documentaire. Pour autant chacune de ces personnes doit avoir sa propre vision de ce référentiel partagé.

La gestion électronique de documents ou GED est un outil qui tente d'adresser ces défis.

Document versus fichier.

On assimile souvent un fichier à un document. Ce n'est cependant qu'une approximation. Si on se réfère à la définition, un document est un ensemble formé par un support et une information (le contenu). A ce titre, le fichier n'est que le support. Selon le type de GED, un document peut donc être un objet assez complexe. L'information est caractérisée par le texte, les images et autres constituants graphiques contenus par le fichier. Cette information est l'information "interne", c'est à dire celle portée par le fichier. Il est souvent nécessaire d'accompagner cette information de propriétés incontournables pour caractériser le contexte de la publication du document dans la durée. Ces propriétés sont souvent abusivement appelées métadonnées.

D'autre part, un fichier n'est rien d'autre qu'une suite d'octets. Pour que son contenu fasse sens, ces octets doivent répondre à un format spécifique et il faut disposer d'un logiciel lecteur adapté à ce format. Comme nous l'avons vu avec l'exemple de Sprint, le risque est grand qu'au bout de quelques années on ne dispose plus du lecteur adapté au format du fichier stocké.

La société Adobe a été l'une des premières à comprendre et réagir à ce risque. Elle a donc mis au point le format PDF (Portable Document Format) en 1992. Il s'agit d'un format de description de page. Son but est de permettre une présentation homogène quelque soit le média de présentation du contenu. De plus, le contenu, y compris la partie descriptive est constituée de texte ce qui en garantit la longévité. Ce format est devenu, de facto, le format de publication par excellence au point qu'il est devenu une norme ISO en 2008. Le sous-ensemble de normes ISO le plus connu est PDF/A. Ce format interdit les éléments qui peuvent porter atteinte à la longévité du document. Ce devrait être le format à choisir chaque fois qu'un document doit s'inscrire dans la durée.

Présentation de la GED piODC.

piDOC est une GED "de poche". Elle a été conçue pour être installée de façon totalement autonome sur un PC portable afin d'être amenée partout ou cela est nécessaire. La plupart des GED sont des logiciels qui imposent une assez lourde infrastructure. Pour autant piDOC peut aussi être utilisé au sein d'une infrastructure résiliente (emploi d'une machine serveur distante avec redondance et duplication en temps réel des données).

Avec piDOC, le véritable coeur du système est l'excellente et désormais éprouvée base de données PostgreSQL. Cette base de données en source libre est l'héritière de la base de données relationnelle Ingres (1974) présente sur les tous premiers UNIX SystemV pour PC et réécrite en 1985 pour devenir aujourd'hui PostgreSQL. C'est dire si cette base de données a été utilisée depuis des années au sein de centaines de milliers de systèmes. Sa réalisation en langage C en fait également l'une des plus performantes. Elle est disponible pour la plupart des systèmes d'exploitation dont Linux, Windows et Macintosh.

Avec le client JavaFX (multi plates-formes : Linux, Windows, Macintosh et la plupart des UNIX) la GED peut être utilisée selon deux modes :

  1. mode autonome : tout sur la même machine ;
  2. mode client-serveur : la base de données sur une machine et les clients sur d'autres machines.

L'extrême portabilité de cette GED permet de l'installer sur tout type de plates-formes (y compris virtualisées) y compris en milieu hétérogène (emploi simultané de machines fonctionnant avec des systèmes d'exploitation différents). Avec piDOC, l'environnement matériel n'est pas une contrainte.

Ainsi, piDOC s'adresse aussi bien à l'utilisateur isolé qu'à une organisation ayant le besoin de partager librement un fonds documentaire. La conception a mis l'accent sur la reprise systématique de composants dans le but de limiter au maximum le besoin de formation. Par exemple, le composant de présentation des listes de documents est le même pour les documents assignés par l'utilisateur que pour les documents projetés dans son plan de classement par une recherche ou pour ceux trouvés par une recherche directe.

Totalement indépendante du système d'exploitation grâce à la plate-forme Java, elle est aussi indépendante des formats de fichier et accepte de transformer n'importe quel type de fichier en document.

Enfin, l'application est bilingue français-anglais. Un simple paramètre de configuration suffit à en changer la langue.

Vocabulaire utilisé.

Un document piDOC est un objet le plus simple possible. L'idée est de ne pas imposer plus de saisie d'information qu'il n'est nécessaire pour son stockage de longue durée et sa recherche future.

Un document piDOC est constitué :

Définition d'un document.
  • d'un fichier que nous appellerons par la suite "image binaire" car il ne sera pas stocké en tant que fichier du système de fichier ;
  • du contenu textuel éventuel de ce fichier (l'information "interne") ;
  • des propriétés de caractérisation du document. Ces propriétés peuvent se répartir en deux familles :
    1. les propriétés qui fixent le contexte du document (éditeur, référence publique, date de publication, etc.). Pour cette raison, on appelle ces propriétés "caractéristiques" du document. Leur liste est finie même si leur saisie peut être facultative.
    2. les propriétés que l'on peut ajouter librement en définissant aussi bien leur nom que leur contenu. Nous les appellerons simplement "propriétés". Contrairement aux caractéristiques, les "propriétés" ne sont pas pré-définies. Elles ne sont en aucun cas obligatoire et sont souvent ignorées. Néanmoins, il peut être pratique d'en ajouter au moins une pour faciliter les recherches : la liste des mots-clef.

Les principales fonctions d'une GED.

Toute GED devrait permettre :

La GED piDOC permet tout ceci est plus encore.

Rédaction par Jean-Marie Piatte (1983-2021)