Passer au contenu principal
Lors du traitement de documents semi-structurés dans ABBYY FlexiCapture, il est généralement souhaitable d’exclure les documents qui n’appartiennent pas au type en cours. Une façon d’identifier un document consiste à marquer au moins un élément comme obligatoire. Dans ce cas particulier, l’en-tête du document constitue un bon élément d’identification, car il contient un texte distinctif qui peut être facilement lu par le moteur OCR.
Un élément d’identification ou un ensemble d’éléments peut être décrit dans un élément Header prédéfini (non utilisé dans cet exemple).
L’en-tête du document sera utilisé uniquement pour identifier le document comme appartenant au type donné et ne sera pas reconnu dans ABBYY FlexiCapture. Dans le FlexiLayout, décrivez l’en-tête du document comme un élément de type Static Text :
  1. Cliquez sur l’onglet FlexiLayout dans la fenêtre principale du programme.
  2. Sélectionnez SearchElements dans l’arborescence FlexiLayout.
  3. Sélectionnez la commande Static Text dans FlexiLayout → Add Elements → Static Text ou dans le menu contextuel de l’élément.
  4. Dans le champ Name, saisissez un nom pour l’élément, par exemple FormHeader.
  5. Sélectionnez Élément obligatoire dans l’onglet Général, car l’en-tête du document est un élément obligatoire.
  1. Cliquez sur l’onglet Static Text.
  1. Dans le champ Search text, saisissez le texte à rechercher. Le lot contient des documents de test avec des en-têtes différents : Easiest Recipes ou Easy to Cook Recipes. Saisissez les deux en-têtes. Les en-têtes sont écrits sur une seule ligne dans toutes les images de test. Vous pouvez donc saisir les en-têtes sans espaces pour accélérer la recherche de texte statique sur une seule ligne. Séparez les deux en-têtes possibles par « | ».
  2. Définissez le nombre maximal d’erreurs que le texte détecté peut contenir (soit en pourcentage, soit sous forme de nombre). Dans ce cas particulier, nous recommandons de définir le pourcentage d’erreur maximal sur 20, ce qui autorise 5 erreurs sur les 25 caractères de l’en-tête du document.
Le nombre maximal d’erreurs est déterminé par essais successifs.