Portail / Client JavaFX / Onglet "Référentiel"(Sommaire)

Ajout de documents.

Dernière mise à jour le 24/04/2021

L'ajout de documents est une des fonctions essentielles de toute GED. Avec piDOC, un utilisateur ne peut ajouter des documents qu'en les intégrant à son plan de classeemnt.

Sommaire.

Principes généraux.

Avant d'entrer dans le détail de la procédure, il peut être utile de comprendre le fonctionnement général de cette fonction. Cette dernière repose sur un formulaire dédié. Elle construit une liste des futurs documents à intégrer mais l'intégration elle-même n'est réalisée qu'après validation de l'utilisateur. Avant cette validation, l'utilisateur doit sélectionner les fichiers qui serviront d'images binaires. A l'issue de cette sélection, les fichiers retenus sont analysés afin d'en extraire le texte (future indexation), d'en modifier les caractéristiques et les propriétés, puis enfin, de stocker tout cela dans un cache (mémoire tampon sur disque).

Notez que si un fichier ne contient pas de texte, il sera tout de même pris en compte mais la recherche d'un tel document ne pourra se faire que sur ses caratéristiques ou ses propriétés. Il est cependant possible d'ajouter du contenu "manuellement" si on le souhaite. Dans ce cas, le texte ajouté sera, lui, indexé. Cette possibilité permet aussi de modifier le texte extrait par la fonction d'ajout.

La fonction d'ajout de document a été conçue pour permettre à l'utilisateur :

  1. d'interrompre l'intégration des documents en mettant fin au programme sans perdre les documents déjà prévus pour intégration (avantage du cache) ;
  2. de pouvoir saisir la liste des documents à intégrer en plusieurs fois. Cela est utile lorsque l'on quitte la fonction d'ajout pour en exécuter une autre puis y revenir ensuite (une recherche par exemple). Toutefois, le cas le plus fréquent se produit lorsque les fichiers qui constituent les images binaires des documents se trouvent sur des répertoires différents ;
  3. de pouvoir saisir tout un groupe de documents afin de les répartir dans différents dossiers du plan de classement par la suite. En effet, on appelle la fonction d'ajout depuis un dossier du plan de classement. Par défaut, c'est sur ce dossier que les documents de la liste sont intégrés. Néanmoins, un système de cases à cocher permet de désélectionner ceux qui n'iront pas dans ce dossier. En rappelant la fonction d'ajout depuis un autre dossier il est possible de désélectionner de nouveau certains documents et ainsi de suite.

Voyons un peu comment tout cela fonctionne dans la pratique.

Procédure.

Lors de la présentation du plan de classement, nous avons vu que toute action sur ce dernier passe par l'appel d'un menu contextuel (clic droit) sur un de ses dossier :

Onglet référentiel.

Dans le menu contextuel de l'image ci-dessus, nous avons le choix Ajouter des documents.... C'est ce choix qui'il aut activer pour invoquer la fonction d'ajout. Ceci fait, le formulaire dédié à cette fonction s'affiche :

Formulaire d'ajout de documents.

Le formulaire est divisé en 4 grandes zones :

  1. la zone de sélection des fichiers (saisie directe du nom de fichier ou recherche dans le système de fichier). Notez que le titre de cette zone précise le dossier courant où les documents seront intégrés ;
  2. la zone qui affiche la liste des futurs documents intégrables ;
  3. la zone de modification des caractéristiques du futur document sélectionné dans la zone précédente ;
  4. la zone de modification des propriétés du futur document sélectionné dans la liste des futurs documents.

Notez que vous pouvez jouer sur la taille des zones, soit en retaillant la fenêtre du formulaire, soit en déplaçant la barre horizontale ou verticale au sein du formulaire.

Les étapes du procesus d'ajout sont les suivantes :

  1. Sélection des fichiers qui serviront d'images binaires aux futurs documents ;
  2. L'étape est à appliquer à chaque document affiché dans la liste. Modification des caractéristiques.
  3. L'étape est également appliquer à chaque document affiché dans la liste. Modification des propriétés.
  4. L'étape est également à appliquer à chaque document affiché dans la liste. Modification éventuelle du texte extrait.
  5. Sélection des seuls documents à insérer dans le dossier dont le nom est rappelé dans la zone de sélection des documents.
  6. Validation de l'insertion.

Etape 1 : Sélection des fichiers qui serviront d'images binaires.

Vous devez commencer par choisir le ou les fichiers qui serviront d'images binaires aux futurs documents. Pour cela, cliquez sur le bouton "Chercher..." de la zone de sélection des documents.

Sélection des fichiers.

L'aspect de cette fenêtre dépend de votre système d'exploitation (ici Linux Debian 10 avec bureau KDE 5). Toutefois, quel qu'il soit, vous aurez la possibilité de faire de la multi-sélection comme ci-dessus (maintien de la touche CTRL enfoncée et sélection avec la souris) et sélectionner l'extension des fichiers cherchés (ici .pdf). Seules les principales extensions des outils de bureautique sont affichées. Pour d'autres extensions, sélectionnez (*.*).

Une fois la sélection achevée, cette fenêtre se referme et après un délai qui dépend du nombre de documents sélectionnés et de la taille de chacun d'eux, la liste affiche les futurs documents à intégrer.

Notez que si un incident quelconque se produit pendant l'analyse d'un ou plusieurs fichiers, un message vous en informe à l'issue de l'analyse de l'ensemble des documents.

Etape 2 : Modification des caractéristiques.

Cette étape doit être réalisée pour chaque futur document de la liste (zone "liste des futurs documents").

La plupart des fichiers disposent de propriétés internes appelées (à tort) métadonnées. Lors de l'analyse, le programme tente d'extraire de ces propriétés celles qui correspondent aux caractéristiques d'un document comme son objet ou sa date de publication.

Il est possible d'exclure des propriééts internes au fichier de l'analyse. C'est le rôle de la propriété metadata.exclude du fichier de configuration. En voici la liste par défaut (séparateur point-virgule) :

metadata.exclude=meta:;dc:;dcterms:;pdf:;xmp:;ptex\.;last-save-date;creation-date;xmptpg:;  \
                          cp:;last-modified;chroma\s;compression\s;data\s;extended-properties:;gama;  \
                          ihdr;modified;pdfversion;tiff:;transparency\s;X-Parsed-By;X-UA

(Il n'y a pas de sauts de ligne dans le fichier). Chaque propriété de cette liste est ignorée si son nom est rencontré dans les propriétés du fichier analysé.

Notez que si l'objet du document n'est pas trouvé das les propriétés internes du fichier, c'est le nom du fichier sans son extension qui est proposé comme objet.

Si besoin est, il faut maintenant ajuster les caractéristiques par saisie directe. Lorsqu'une valeur de caractéristique est modifiée, son contenu passe en encre rouge :

Modification d'une caractéristique.

C'est la frappe de la touche ENTREE dans chaque champ de saisie qui la valide et refait passer le texte en blanc. Notez que si l'objet est modifié, il est également modifié dans la liste.

Pour vous aider à trouver l'objet, vous pouvez visualiser le fichier en double cliquant sur son nom dans la liste (à condition qu'un lanceur soit associé à son type).

Une autre possibilité consiste à faire afficher le texte extrait. Pour cela faire un clic droit sur le futur document dans la liste et activer le choix Voir et modifier le texte extrait... du menu contextuel qui s'affiche.

Menu d'affichage du texte extrait.

Une nouvelle fenêtre apparaît et présente le texte extrait du fichier :

Affichage du texte extrait.

Notez que cette fenêtre vous permet de faire des recherche à partir de mots ou pour les plus avancés d'entre vous d'expressions régulières. Les mots qui correspondent à la recherche apparaissent en jaune fluo (ici 'tour") et leur nombre d'occurences dans le texte est affiché (ici 21).

L'intérêt est que si le texte contient une ou plusieurs caractéristiques, vous pouvez la copier depuis cette fenêtre et la coller dans le champ de saisie qui lui correspond.

Etape 3 : Modification des propriétés.

Cette étape doit être réalisée pour chaque futur document de la liste (zone "liste des futurs documents").

Toutes les propriétés internes au fichier dont le nom ne figure pas dans la liste des proprietés fixées par la configuration (cf. metadata.exclude vu à l'étape précédente) sont ajoutées aux propriétés du futir document.

Dans la pratique, il est rare que l'on ait besoin de toutes les propriétés extraites. Le client JFX piDOC vous permet donc de les gérer. Tout d'abord, il est possible de modifier "en place" (clic souris gauche) pour modifier aussi bien le nom que la valeur de la propriété.

De plus, un menu contextuel s'affiche sur un clic droit dans un endroit quelconque de la liste des propriétés :

Gestion des propriétés.

Tout d'abord, ce menu permet d'ajouter une nouvelle propriété. Imaginons que nous voulions stocker le numéro de client associé au document. Nous commençons par invoquer le menu contextuel puis le choix Ajouter une propriété. Une nouvelle propriété est immédiatement créé (ici <Nouvelle propriété N°4>).

Nouvelle propriété.

Nous utilisons ensuite la modification "en place" pour ajuster nos valeurs.

Modification de la propriété.

Les autres propriétés Content-Type, pdfaid:conformance, pdfaid:part et producersont des propriétés techniques que nous ne souhaitons pas conserver. Nous sélectionnons alors chaque propriété à supprimer puis nous appellons le menu conextuel et sélectionnons Supprimer la propriété.

Cette méthode n'est pas la plus subtile. Il aurait été préférable de supprimer toutes les propriétés, puis d'ajouter ensuite seulement le N° de client.

Etape 4 : Modification du texte extrait.

Si le document doit "vivre", c'est à dire connaître des versions différentes avant d'être finalisé, nous vous recommandons de ne pas modifier le texte extrait (sauf à avoir une bonne raison de le faire). En effet, lors du téléversment de chaque nouvelle image binaire du document, son contenu textuel est de nouveau extrait et remplace le précédent et donc la mise à jour manuelle si vous en avez effectué une.

En revanche, pour les documents finalisés cela peut s'avérer très utile. C'est le cas notamment des documents qui ne contiennent pas de texte ou pour lesquels l'extraction a échoué ou n'est pas satisfaisante (cas des documents de mauvaise qualité graphique passés à l'OCR).

Nous avons vu lors de l'étape 2 que nous pouvions visualiser le texte extrait. Cela avait ouvert le formulaire de présentatiin du texte extrait. En bas et à droite de ce formulaire il y a un bouton intitulé Mise à jour...Vous devez actionner ce bouton. Cela provoque le changement d'état du formulaire :

Mise à jour du texte extrait.

Vous êtes désormais en "mode édition". Vous pouvez changer ce que vous souhaitez. Notez que la recherche n'affiche plus l'ensemble des réponses trouvées (bien que leur nombre total apparaisse au bas de la fenêtre). C'est la première occurence qui est surlignée. Pour passer à l'occurence suivante, tapez la touche de fonction F3. Une fois sur la dernière occurence, l'action sur la touche F3 ramène à la première.

A la fin de votre saisie, actionnez le bouton Validerau bas est à droite du formulaire. Cela ramène le formulaire en mode consultation avec affichage de votre saisie.

Le texte extrait est important car c'est lui qui sert de base à l'indexation. De sa qualité dépend en bonne part la qualité de la recherche dasn le mode dit "plein texte".

Etape 5 : Sélection des seuls documents à insérer dans le dossier.

Nous avons ajouté le dossier Communication à notre plan de classement. Nous avons cependant créé plusieurs futurs documents dont un seul doit être inséré dans le dossier sélectionné Communication. Les autres doivent être insérés dans le dossier Contrats. Pour l'instant, voici à quoi ressemble notre liste des futurs documents après mises à jour et suppression des propriétés superflues :

Liste des futurs documents à insérer dans un dossier.

Pour n'insérer que le document Elections régionales et départementales 2021dans le dossier sélectionné (Communication) nous devons désélectionner tous les autres documents. Voici l'aspect de notre liste après cette opération :

Sélection des documents à insérer.

Etape 6 : Insertion des documents en base de données.

C'est de loin l'opération la plus simple. Il suffit de cliquer sur le bouton Enregistrer en base.

C'est immédiat si le réseau est de bonne qualité, un peu plus long sur une ligne de bas débit. Le délai dépende du volume des données à enregistrer et du débit de votre réseau entre votre poste et le serveur de données.

En présence d'un réseau bas débit ou de mauvaise qualité, nous vous recommandons de limiter le nombre de documents à enregistrer en base en une fois. Au besoin, insérez les un à un. Cela limitera les risques d'incidents et donc de renouvellement de la procédure. Il n' y a cependant aucun risque à avoir une liste importantes de futurs documents puisque jusqu'à l'enregistrement en base de données, tout le traitment est local.

Documents enregistrés.

Voilà, le document est enregistré. Pour enregistrer les contrats, vous devez effectuer un clic droit sur le dossier Contrats puis invoquer de nouveau le choix Ajouter des documents.... Dans la liste des futurs documents qui s'affichent, seul le dernier document assigné a disparu. On sélectionne donc tous les autres puis on actionne le bouton Enregistrer en base.

Si vous avez plusieurs documents dans un dossier, vous constaterez qu'ils sont classés dans l'ordre décroissant des dates de leur publication.

Pour aller plus loin...

Il y a 3 autres choix dans le menu contextuel du formulaire d'ajout des documents que nous n'avons pas traité. Ce sont en fait des "facilités" de moindre importance.

  1. Tout sélectionner : ce choix vous évite d'avoir à sélectionner les documents à enregistrer un à un. Dès que vous actionnez cet item de menu, toutes les cases à cocher sont activées.
  2. Tout desélectionner : ce choix est le pendant du précédent. Il vous évite d'avoir à désélectionner les documents à ne pas enregistrer un à un. Dès que vous actionnez cet item de menu, toutes les cases à cocher sont désactivées.
  3. Purger la liste : ce choix supprime tous les futurs documents de la liste et du cache. Attention : cette opération est irréversible. En cas d'erreur, vous devrez revenir à la sélection des images binaires.

Rédaction par Jean-Marie Piatte (1983-2021)