Passer au contenu principal
Lors du traitement de documents semi-structurés dans ABBYY FlexiCapture, il est généralement souhaitable d’exclure les documents qui n’appartiennent pas au type en cours. Pour identifier un document, on peut notamment marquer au moins un élément comme obligatoire. Un élément obligatoire doit être détecté de manière fiable sur tous les documents d’un type donné (sinon, le programme ne pourra pas faire correspondre le document à sa FlexiLayout). Dans ce cas précis, l’en-tête du document (HALLOWEEN REGISTRATION FORM) constitue un bon élément d’identification, car il contient un texte distinctif que le moteur OCR peut facilement lire.
Vous pouvez spécifier un élément d’identification ou un jeu d’éléments dans un élément composé Header prédéfini (non décrit dans ce tutoriel).
L’en-tête du document sera utilisé uniquement pour identifier le document comme appartenant au type donné. Dans la FlexiLayout, spécifiez l’en-tête du document comme élément de type Static Text. Pour créer un élément ID :
  1. Cliquez sur l’onglet FlexiLayout dans la fenêtre principale du programme.
  2. Sélectionnez SearchElements dans l’arborescence FlexiLayout.
  3. Sélectionnez la commande Static Text dans FlexiLayout → Add element ou dans le menu contextuel de l’élément (New → Static Text).
  4. Dans le champ Name, saisissez un nom pour l’élément, par exemple IDHeader.
  5. Sélectionnez Required element dans l’onglet Général pour faire de l’en-tête du document un élément obligatoire.
  1. Cliquez sur l’onglet Static Text.
  1. Dans le champ Search text, saisissez le texte à rechercher : HALLOWEEN REGISTRATION FORM. À en juger par la première image du lot, on peut supposer que l’en-tête du document tient sur une seule ligne. Vous pouvez donc saisir l’en-tête sans espaces afin d’accélérer la recherche de texte statique sur une seule ligne.
  2. Définissez le nombre maximal d’erreurs pouvant apparaître dans le texte trouvé (soit en pourcentage, soit sous forme de nombre). Dans ce cas précis, nous recommandons de définir le pourcentage maximal d’erreurs sur 20, ce qui autorise 5 erreurs pour les 25 caractères de l’en-tête du document.
Le pourcentage optimal d’erreurs autorisées ne peut être déterminé que par tâtonnements.