Passer au contenu principal
Un élément de recherche est une description d’un ou de plusieurs objets d’image de document, qui permet de définir des conditions de recherche pour un objet dans une zone spécifique. Un élément contient des informations sur le type d’objet recherché, ses propriétés et sa zone de recherche. Les résultats de recherche obtenus à partir des propriétés de l’élément sont utilisés par l’activité pour créer des régions pour les objets détectés sur l’image — une zone composée d’un ou de plusieurs rectangles englobant l’objet détecté. L’emplacement des champs et d’autres éléments est ensuite déterminé par rapport à celui des éléments détectés. Pour créer un élément, cliquez sur Créer un élément et sélectionnez le type d’élément approprié dans la liste qui s’affiche. Une fois l’élément créé, configurez ses propriétés dans le volet Propriétés (voir Propriétés des éléments pour plus d’informations). Les propriétés définies peuvent également être consultées et modifiées au format code (voir Langage FlexiLayout pour plus d’informations). Les éléments peuvent être déplacés dans l’arborescence en fonction de la structure du document. Notez que la position des éléments dans l’arborescence détermine leur ordre de recherche. La recherche d’éléments s’effectue par ordre décroissant. Lorsque vous créez un élément de recherche, choisissez son type en fonction de l’objet à trouver. Vous trouverez ci-dessous de brèves descriptions des types d’éléments de recherche disponibles dans l’activité Règles d’extraction. Une fois l’élément de recherche créé, configurez ses propriétés, décrites ici.

Texte statique

Cet élément décrit un texte prédéfini. La plupart des images de documents contiennent du texte statique. Il peut s’agir du nom du document (par exemple « Invoice ») ou d’un libellé supplémentaire pour des champs de données (par exemple « Date », « to: », « from: »). Ce texte est reconnu comme un objet Recognized Words lors de la préreconnaissance et sert généralement d’ancre pour détecter les valeurs des champs correspondants (par exemple, la date est généralement indiquée à côté du libellé « Date »). Ce texte peut être constitué d’un mot ou d’une phrase. Les phrases se distinguent des mots en ce qu’elles contiennent au moins un espace. Une phrase peut également s’étendre sur plusieurs lignes. Lors de la recherche de cet élément, les objets Recognized Words et Recognized Lines détectés lors de la préreconnaissance de l’image et situés dans la zone de recherche de l’élément sont pris en compte.

Chaîne de caractères

Cet élément décrit une séquence de caractères sur une seule ligne (de gauche à droite). Les séquences de caractères sont constituées d’objets de texte reconnus (Mots reconnus), par exemple de mots entiers ou de plusieurs fragments d’objets de texte. Cet élément est conçu pour rechercher du texte non prédéfini. Les objets Mots reconnus détectés lors de la préreconnaissance de l’image et situés dans la zone de recherche de l’élément sont pris en compte. En général, l’activité recherche des séquences de caractères dans des zones autour d’un texte statique déjà détecté. Par exemple, pour rechercher un numéro de facture, il faut d’abord trouver le texte statique “Invoice No.”, après quoi l’activité recherche, sur la même ligne, une séquence de caractères à droite du texte statique (uniquement des chiffres dans ce cas).
Remarque : L’activité ne recherche pas d’éléments Chaîne de caractères en arabe et en hébreu en raison de leur écriture de droite à gauche.

Paragraphe

Cet élément décrit un paragraphe de texte. Une recherche utilisant cet élément prend en compte tous les objets de texte qui intersectent la zone de recherche. Cet élément est conçu pour rechercher des paragraphes de texte non prédéfinis. Les objets Recognized Words et Recognized Lines détectés lors de la préreconnaissance et situés dans la zone de recherche de l’élément sont pris en compte.

Valeur clé

Il s’agit d’un élément de groupe conçu pour rechercher des champs munis d’une étiquette. Pour créer cet élément, vous devez définir les propriétés de l’étiquette, le champ de recherche principal ainsi que l’espace qui les sépare. Vous pouvez également spécifier un type et les propriétés appropriées pour l’élément principal. Le texte statique et l’espace blanc servent de moyens de recherche secondaires pour le champ principal. Lors de la recherche de texte statique, les objets Recognized Words et Recognized Lines, détectés lors de la préreconnaissance de l’image et situés dans la zone de recherche de l’élément, sont pris en compte. Une fois l’élément de texte statique détecté, l’activité recherche le champ correspondant contenant la valeur de l’élément.

Date

Cet élément décrit la date. Les dates peuvent être exprimées selon différents formats : les valeurs du jour et de l’année sont toujours en chiffres, tandis que le mois peut parfois être écrit en toutes lettres. Le format de date est défini par l’utilisateur.

Montant

Cet élément décrit des valeurs numériques qui sont soit des entiers, soit comportent deux décimales. Par défaut, un caractère de remplissage pour la partie décimale est autorisé. Par exemple, 12. sera reconnu comme 12.00. La partie entière peut être divisée en groupes à l’aide de délimiteurs (les espaces et les symboles suivants sont autorisés comme délimiteurs par défaut : . , ’). Le nombre recherché peut avoir un préfixe et un suffixe, par exemple un élément de texte qui précède ou suit la valeur numérique. Le préfixe doit se trouver sur la même ligne que la valeur numérique. Ce format est généralement utilisé pour les montants, le nom de la devise servant de préfixe.

Téléphone

Cet élément décrit un numéro de téléphone, généralement accompagné d’un mot‑clé (p. ex. « Tél. », « Tél. domicile », etc.) et d’un indicatif de ville/région séparé du reste du numéro au moyen de parenthèses. Le numéro de téléphone et le mot‑clé correspondant doivent figurer sur la même ligne.

Région

Cet élément représente une région sur l’image d’un document, sans aucune précision sur son contenu. L’élément Région peut être constitué de plusieurs zones non contiguës. Il est utilisé dans l’activité pour délimiter des régions quels que soient les objets qu’elles contiennent. Utilisez cet élément lorsque le même champ est détecté à l’aide d’éléments différents sur des documents différents, par exemple Date et Chaîne de caractères, afin de rechercher une date présente à la fois dans des formats standard et non standard. Dans ce cas, Date et Chaîne de caractères sont des éléments secondaires, tandis que Région est utilisé pour consigner les résultats d’extraction.

Séparateur

Cet élément décrit un séparateur vertical ou horizontal. Il est conçu pour rechercher des séparateurs. Les objets séparateurs détectés lors de la préreconnaissance de l’image et situés entièrement dans la zone de recherche de l’élément sont pris en compte. Ces objets peuvent soit se trouver entièrement dans la zone de recherche, soit simplement l’intersecter.

Espacement blanc

Cet élément décrit une zone rectangulaire de l’image qui ne contient presque jamais d’autres objets. Il peut être utilisé comme élément secondaire pour la recherche d’autres éléments. Par exemple, s’il y a toujours un espacement blanc entre l’adresse et l’en-tête du document dans les documents en cours de traitement, un élément Espacement blanc peut être utilisé pour rechercher l’élément contenant l’adresse.

Code-barres

Cet élément décrit les codes-barres. Il est conçu pour détecter les types de codes-barres pris en charge par Advanced Designer. Les objets codes‑barres détectés lors de la préreconnaissance d’images et situés dans la zone de recherche de l’élément sont pris en compte.

Collection d’objets

Cet élément décrit une collection d’objets de types variés, qui satisfont tous les conditions de recherche. L’élément Collection d’objets est généralement utilisé pour rechercher des objets qui ne peuvent pas être détectés à l’aide d’un autre type d’élément. Par exemple, cet élément peut être utilisé pour trouver des signes de ponctuation isolés qui ne font partie d’aucune ligne de texte ni d’autres objets textuels, ainsi que du texte qui n’a pas pu être reconnu en raison d’un grand nombre d’objets sans lien. Cet élément peut également être utilisé pour trouver des objets non textuels, comme des images et des annotations.

Groupe

Il s’agit d’un ensemble de plusieurs autres éléments (appelés sous-éléments). Les sous-éléments peuvent être à la fois des éléments simples et des éléments de groupe. Nous déconseillons de définir des éléments de groupe ne contenant aucun sous-élément. Les éléments de groupe peuvent être utilisés pour les objectifs suivants :
  • Regrouper des éléments. Cela facilite le débogage des parties indépendantes de votre activité Extraction Rules. Par exemple, votre activité peut contenir 100 éléments répartis en 3 parties : en-tête, corps, pied de page. Chacun de ces 3 éléments de groupe contient d’autres éléments de groupe conçus pour rechercher de petits fragments de la partie logique de votre activité. En plus de réduire le nombre de possibilités que l’activité doit envisager, une telle structure garantit que le débogage et la modification sont plus faciles à l’avenir, puisqu’elle est scindée en parties indépendantes.
  • Assurer une hiérarchie logique des éléments dans l’arborescence, ce qui facilite la navigation dans l’activité.
  • Réduire le nombre d’hypothèses d’éléments possibles, ce qui accélère la recherche de l’hypothèse retenue pour l’activité dans son ensemble. Le fait de regrouper des éléments permet de considérer ce groupe comme une entité unique avec sa propre hypothèse, ce qui rend possible une mesure de la qualité pour le groupe dans son ensemble.
  • Un élément composé vous permet de spécifier des restrictions de zone de recherche partagées par tous les sous-éléments. La zone de recherche d’un sous-élément spécifique d’un élément de groupe sera calculée comme l’intersection des zones de recherche du sous-élément et de l’élément de groupe.
Les éléments (de groupe ou simples) peuvent être requis, facultatifs ou interdits. Si un élément composé facultatif contient un sous-élément requis, l’absence de correspondance de ce sous-élément entraînera la formulation de l’hypothèse nulle pour l’élément de groupe. Cela n’interrompra pas la mise en correspondance de l’activité Extraction Rules.

Groupe répétitif

Cet élément est conçu pour rechercher des groupes d’éléments répétitifs (en nombre d’instances inconnu). Un exemple courant est un tableau de données. Un élément répétitif se distingue d’un élément composé classique par ses paramètres de répétition. Ce groupe peut apparaître plusieurs fois sur une même Page, ainsi qu’à travers l’ensemble du document. Comme ce groupe se répète dans un document, l’élément vous permet de décrire toutes ses occurrences (y compris leurs paramètres de répétition) sous la forme d’un seul élément. Ainsi, l’utilisation de Groupe répétitif permet de décrire la structure du document beaucoup plus rapidement. Cet élément peut être utilisé pour :
  • Rechercher des tableaux.
  • Rechercher un en-tête sur chaque Page d’un document multipage.
  • Rechercher un nombre inconnu d’entrées de données répétées.

Champ d’entrée

Cet élément est conçu pour détecter une région de champ extraite par une autre activité. Il peut être utilisé pour trouver d’autres éléments. Par exemple, si une compétence contient un champ qui reste toujours au même endroit sur l’image après l’entraînement, il peut être utilisé comme champ d’ancrage lors de la recherche d’éléments à l’aide d’une activité Extraction Rules. Pour ce faire, créez un élément Champ d’entrée et sélectionnez le champ approprié dans la structure de la compétence. Cela créera un élément Region qui contient du code reliant l’élément et le champ sélectionné dans l’onglet Search Conditions.

Deep Learning

Cet élément donne accès à une valeur trouvée par une activité Deep Learning qui transmet sa sortie à l’activité Extraction Rules au sein d’un conteneur Hypothesis Filtering. Cet élément n’est disponible que dans un conteneur Hypothesis Filtering. Vous pouvez contrôler la sortie d’une activité Deep Learning en définissant des conditions pour cet élément de recherche. Par exemple, si l’activité Deep Learning est configurée pour trouver une valeur répétée, vous pouvez définir l’emplacement privilégié de l’instance à extraire.