Portail / La gestion électronique de documents(Sommaire)

Techniques de base.

Dernière mise à jour le 10/04/2021

Pour tirer le meilleur partie de la GED, il peut être utile d'en comprendre les mécanismes de base.

Les formats de fichier.

Un fichier a pour objectif de mémoriser sur un support passif (non alimenté) un type d'information. L'objectif est de restituer cette information à la demande ultérieurement. Notez que nous ne faisons ici aucun pré-supposé sur la nature de l'information : texte, audio ou vidéo par exemple. Dans la pratique, le système d'exploitation qui stocke le fichier ne s'en soucie pas. Il "voit" un fichier comme une suite contigue d'octets qu'il doit fragmenter en "grappes" (clusters) afin d'adapter le stackage du fichier aux capacités du support de stockage. Il ordonne ces grappes de façon à rendre l'opération réversible et ainsi fournir à la demande la suite contigue d'octets qui constitue le fichier.

L'interprétation du contenu d'un fichier est la mission d'un logiciel. Pour qu'un logiciel donné soit capable d'interpréter un fichier, ce dernier doit être construit d'une certaine façon. Plus exactement, la suite contigue d'ocetets doit être créé dans un format particulier. Tout format fait l'objet d'une "spécification". Cette spécification peut être privée (Word, Excel, etc.) ou publique (PDF, LibreOffice, etc.).

Sans la connaissance de la spécification de format, un logiciel ne peut pas interpréter un fichier.

C'est notamment ce qui arrive lorsque tout ou partie du fichier est corrompue. La corruption d'un fichier est le remplacement ou la perte d'une partie des octets qui le constitue. Lorsque le fichier est corrompu, la spécification de format n'est plus respectée et un logiciel dédié ne peut donc plus l'interpréter. Le respect de l'intégrité d'un fichier est le défi majeur que doit relever une GED. En cela, une GED a le même objectif qu'une base de données.

Dans le cas de piDOC, tous les fichiers sont transformés en images binaires stockées au sein d'une base de données. Une base de données comporte des mécanismes particuliers de contrôle d'intégrité de ses données. Elle peut même dans certains cas reconstruire des données corrompues. De plus, tout moteur de base de données "sérieux" dispose d'outils de sauvegarde et de restauration, qui, s'ils sont exécutés régulièrement, préservent l'information dans la durée.

L'extraction de texte.

Un ordinateur est à la base un simple automate capable de répéter à l'infini des tests, des boucles, des affectations en mémoire et des calculs arithmétiques. On fige ces fonctions de base dans un programme pour obtenir un "traitement". Mais rien dans tout cela ne permet de donner un "sens" à la suite d'octets qui constitue un fichier.

Seules les intelligences artificielles (IA) terme très galvaudé actuellement, ont la capacité de modifier leur programmation initiale en fonction du contexte sur lequel elles opérent. Ce sont grâce à elles, qu'un jour prochain, la machine pourra simuler une compréhension de la sémantique portée par un document. On en est pas encore là...

Aujourd'hui seule la reconnaissance de mots contenus par un document permet de le retrouver facilement. Bien entendu, ces mots ou groupes de mots sont mis sous une forme canonique pour éviter de travailler sur de gigantesques dictionnaires (par exemple, les verbes sont ramenés à leur forme infinitive ce qui supprime tous les mots issus des conjugaisons). La forme canonique des mots ou groupe de mots est appelée lexème. Les lexèmes permettent aussi des recherches approximatives c'est à dire qu'ils considèrent comme valides des mots dont l'orthographe est voisine de celle du mot cherché.

Mais entre une suite contigue d'octets et la notion de texte il reste un grand pas à franchir. C'est là qu'intervient la spécification de format d'un fichier. Si on connnaît son format, alors on sait ce qui est du texte et on peut l'extraire. C'est ce que fait la GED piDOC. Son moteur d'extraction reconnait la plupart des formats courants et est donc capable d'extraire le contenu des fichiers qui respectent ces formats. piDOC reconnait notamment les fichiers PDF non chiffrés, les fichiers issus des suites bureautique MS Office et LibreOffice, les fichiers texte, les fichiers courriels (EML) et de nombreux autres formats.

L'indexation.

Extraire le texte est un grand pas mais s'il faut parcourir un à un tous les lexèmes de tous les fichiers pour connaître ceux qui contiennent une information cherchée, les délais seraient beaucoup trop longs.

Fort heureusement s'il y a une chose que les ordinateurs savent faire, c'est parcourir rapidement des structures arborescentes. L'idée est de décomposer un fichier en lexèmes, d'associer à chaque lexème le ou les fichiers qui le contiennent puis de regrouper les lexemes en une structure arborescente. En effet, dans un contexte donné (celui d'une entreprise par exemple), la plupart des fichiers partagent un grand nombre de lexèmes. En créant cette structure arborescente, on réduit notablement le nombre global des lexèmes tout en permettant une recherche très rapide de l'un d'entre eux.

Cette opération s'appelle l'indexation et la structure arborescente résultante est appelée index.

Un mot sur l'OCR.

L'OCR (Optical Character Recognition) ou reconnaissance optique de caractères est une technique qui consiste à identifier le texte contenu par une image numérique.

Encore trop souvent, on ne reçoit pas l'information sous sa forme numérique mais sous la forme d'un document papier. Le papier rentre mal dans un disque dur...

Vous allez donc devoir faire vous-même la numérisation de ce document, c'est à dire sa conversion de sa forme papier à sa forme numérique. Pour cela, vous allez utiliser un scanner. Ce dernier produit en fait une image qui, par définition, ne contient aucun texte. Même si le scanner produit un fichier au format PDF, c'est juste l'intégration de l'image produite par le scanner dans un fichier de ce format : il n'y a pas de texte pour autant.

Si vous tentez d'extraire le texte de tels documents, vous serez déçu : il n'y en a pas (hormis les propriétés intrinsèques au format PDF). Si vous souhaitez indexer un document scanné, ll faudra soumettre l'image numérisée du document scanné à un traitement supplémentaire : celui de l'OCR.

La plupart des OCR permettent de reconstituer le fichier PDF en lui ajoutant le texte reconnu. Pour cela, l'affichage est celui des images scannés mais l'OCR ajoute à la position de chaque mot identifié le texte qu'il a reconnu.

L'image affichée est donc celle qui a été scannée mais le document est enrichi d'une couche sous-jacente : celle du texte reconnu par l'OCR. Hélas, la qualité de la reconnaissance dépend du logiciel d'OCR utilisé mais aussi et surtout de la qualité graphique de l'image scanné. C'est pour cela qu'avant un traitement OCR, il est recommandé d'accentuer le contraste des images obtenues à l'issue du scan.

Pour vous en persuader, faites un copier du texte d'un document scanné et passé à l'OCR puis coller le résultat dans un éditeur de texte. Vous aurez alors un bon aperçu de ce qui se passe réellement. C'est pour cela que de nombreux OCR proposent une correction manuelle des mots qu'ils ne retrouvenet pas dans leur dictionnaire (pour une langue donnée). Hélas, cette procédure est incompatble d'un traitement automatique ou consomme trop de temps pour pouvoir être mise en oeuvre.

Notez enfin que les scanners industriels proposent parfois un OCR intégré. Pensez-y lors du renouvellement de ce matériel. Vous y gagnerez un temps considérable.

Rédaction par Jean-Marie Piatte (1983-2021)