Passer au contenu principal
L’activité Règles d’extraction permet de définir des règles pour détecter des champs sur des documents semi-structurés et de vérifier leur fonctionnement sur des documents réels. Elle s’utilise généralement lorsque l’emplacement d’un champ peut varier d’un document à l’autre, ce qui complique l’extraction des données, et lorsque vous pouvez fournir des informations supplémentaires pour détecter ces champs, par exemple l’emplacement des champs par rapport à d’autres objets dans le document ou des expressions régulières précisant les conditions de recherche pour un objet. Par exemple, vous pouvez indiquer que le champ Numéro de facture peut se trouver soit à droite de l’image, soit directement sous les mots « Order number », « Order # » ou d’autres mots-clés similaires. Nous recommandons également d’ajouter une activité Apprentissage rapide au flux de traitement et d’activer l’Apprentissage en ligne pour collecter des documents en production, ce qui reconstruira automatiquement la compétence ultérieurement via l’apprentissage automatique.

Cas d’utilisation

Ajoutez l’activité Extraction Rules à votre flux de traitement de documents dans les cas suivants :
  • Lorsque votre lot de documents n’est pas suffisamment homogène pour utiliser une activité Fast Learning pour extraire des données, que vous n’avez pas assez de documents pour entraîner une activité Deep Learning et que les documents ont une structure connue que vous pouvez formaliser.
  • Lorsque vous souhaitez un contrôle plus fin sur l’IA, en analysant les résultats de prédiction des activités Deep Learning et Fast Learning avant de transférer ces valeurs dans des champs du document. Par exemple, si vous prévoyez d’extraire un nombre situé près d’un mot-clé, vous pouvez exclure les hypothèses qui ne correspondent pas à un nombre et celles qui ne sont pas situées à proximité du mot-clé. De manière générale, si un post-traitement par règles est nécessaire, cela indique souvent que l’ensemble d’entraînement pour les activités Deep Learning et Fast Learning devrait être élargi, car les technologies d’apprentissage automatique peuvent « sentir » et apprendre le type de données d’un champ, son emplacement typique et son environnement.
  • Lorsque vous disposez d’un fichier FlexiLayout provenant d’ABBYY FlexiLayout Studio que vous souhaitez réutiliser. Pour plus d’informations, voir Importing FlexiLayouts from ABBYY FlexiLayout Studio.
  • Lorsque vos documents contiennent des structures complexes (par ex. des tableaux imbriqués, c’est‑à‑dire des structures répétées à l’intérieur d’autres tableaux) qui ne peuvent pas être extraites par d’autres activités destinées aux documents semi-structurés.

Fonctionnement

Une activité Extraction Rules est une description formalisée d’un ensemble de documents qui permet aux opérateurs de capture de données d’utiliser des règles personnalisées pour localiser des champs de données sur les documents et en extraire les informations. En d’autres termes, une activité Extraction Rules permet de spécifier des algorithmes de recherche de champs pour les images de documents. Vous pouvez soit définir l’emplacement des champs par rapport à d’autres objets, soit utiliser des coordonnées absolues pour préciser leur position. Divers objets sur l’image du document sont détectés à l’aide d’éléments de recherche. Pour chaque objet à détecter sur l’image, vous devez créer un élément correspondant qui décrit entièrement le type d’objet requis (tel que texte, image, code‑barres), ses caractéristiques et la zone de recherche présumée pour l’objet. Les éléments constituent un arbre Search Elements, qui est une structure logiquement reliée (à tout niveau d’imbrication) où les éléments sont recherchés les uns par rapport aux autres. L’ordre des éléments dans l’arbre correspond directement à l’ordre dans lequel l’activité les recherche ; autrement dit, lors de la mise en correspondance de la description avec l’image, l’activité recherchera les éléments par ordre décroissant. Le regroupement des éléments permet d’optimiser la recherche et d’établir des sous‑hiérarchies indépendantes. Pour extraire des données dans un champ, vous devez l’associer à un élément de recherche. Si l’élément est trouvé sur l’image, sa région devient celle du champ associé. Pour plus d’informations, voir Configurer une activité Extraction Rules.

Combiner plusieurs activités Extraction Rules

Vous pouvez créer un élément de workflow qui contient plusieurs activités Extraction Rules. L’activité à appliquer au document est sélectionnée en fonction de la valeur d’un champ donné. Ce champ peut contenir des résultats de classification ou d’autres données permettant de distinguer les variantes de document. Les valeurs spécifiées servent de conditions pour choisir l’activité correspondante. Pour en savoir plus, voir Plusieurs ensembles d’Extraction Rules au sein d’une seule activité.