Passer au contenu principal
Un conteneur de filtrage d’hypothèses combine plusieurs activités Deep Learning et une activité de règles d’extraction. Les résultats des activités Deep Learning sont transmis à l’activité de règles d’extraction, qui définit des conditions pour sélectionner les valeurs souhaitées. Même si une activité Deep Learning peut atteindre une qualité d’extraction de champs très élevée, vous pouvez souhaiter en contrôler la sortie dans certains cas. Pour ce faire, vous pouvez combiner une ou plusieurs activités Deep Learning avec une activité de règles d’extraction, qui appliquera des conditions aux valeurs obtenues par la ou les activités Deep Learning. Le contrôle des résultats est essentiel lorsque le réseau neuronal identifie des mots entiers alors que vous n’avez besoin que de parties spécifiques, ou lorsque vous devez filtrer des bruits capturés par inadvertance. Il peut également être utile pour identifier des parties de champs plus larges, tels que des adresses, que le réseau neuronal peut négliger. De plus, il vous permet de choisir la meilleure hypothèse pour plusieurs occurrences de la même valeur. Par exemple, lorsque le nom d’un Fournisseur est imprimé plusieurs fois sur un document, vous pouvez sélectionner le résultat d’extraction le plus précis parmi les différentes occurrences.
Remarque : Cette technologie est fournie en aperçu et sera améliorée dans les versions futures.

Configuration d’un conteneur de filtrage des hypothèses

  1. Cliquez sur le bloc qui contient l’activité Deep Learning et sélectionnez Filter Hypotheses. Un nouveau conteneur de filtrage des hypothèses sera créé et l’activité Deep Learning sélectionnée y sera placée.
  2. (Facultatif) Faites glisser d’autres activités Deep Learning dans le conteneur de filtrage des hypothèses. Cela vous permettra de combiner et comparer les résultats de deux activités Deep Learning ou plus. Deux activités peuvent être nécessaires, par exemple lorsque vous travaillez simultanément avec des champs de texte et des tableaux.
  3. Ajoutez une activité Extraction Rules au conteneur. Vous pouvez créer une nouvelle activité en cliquant sur l’espace réservé ou faire glisser une activité existante dans le conteneur.
  4. Configurez l’activité Extraction Rules. Pour chacune des valeurs trouvées par les activités Deep Learning, ajoutez un élément de recherche Deep Learning et définissez ses propriétés. Vous pouvez ajouter tous les champs de sortie d’une activité Deep Learning en une seule fois. Un élément de recherche Deep Learning prend en charge toutes les propriétés qui limitent la zone de recherche ainsi que les conditions de recherche de l’élément.
  5. Connectez l’entrée et la sortie du conteneur de filtrage des hypothèses aux autres blocs du flux de traitement de documents. Les champs de sortie du conteneur de filtrage des hypothèses seront identiques à ceux de l’activité Extraction Rules.
Remarque : Si vous décidez d’arrêter de contrôler la sortie de l’activité Deep Learning, cliquez n’importe où dans le conteneur et sélectionnez Don’t Filter Hypotheses. Le conteneur sera démonté, mais les activités elles-mêmes ne seront pas supprimées, et vous pourrez toujours les utiliser dans le flux de traitement de documents modifié.

Exemples

Remarque : Voici seulement quelques exemples illustrant l’utilisation d’un conteneur de filtrage d’hypothèses. De nombreuses autres situations permettent d’employer cette fonctionnalité pour contrôler la sortie des réseaux neuronaux et optimiser l’extraction des champs. Vous êtes le mieux placé pour déterminer les ajustements nécessaires pour les documents sur lesquels vous travaillez, et nous vous encourageons à essayer cette technologie chaque fois que les résultats de l’activité Deep Learning peuvent bénéficier d’un réglage. Les exemples ci-dessous utilisent la même compétence d’exemple, où les sorties de deux activités Deep Learning sont transmises à une activité Extraction Rules.

Workflow de Skill

AD_HypothesisFiltering_Container
  • L’activité Deep Learning extrait des champs Text.
  • L’activité Deep Learning 2 extrait un tableau.
  • Le conteneur Hypothesis Filtering sélectionne et combine leurs résultats.

Structure des éléments de recherche dans l’activité Extraction Rules

AD_HypothesisFiltering_SearchElementTree Chaque élément de recherche est mappé à son champ correspondant.

Exemple 1 : Corriger une valeur trouvée par une activité de Deep Learning

Dans cet exemple, une activité de Deep Learning trouve une valeur pour le numéro de document qui est trop longue, et un nouvel élément de recherche est créé pour corriger la valeur. La valeur du numéro de document trouvée par l’activité de Deep Learning inclut la partie après le tiret : AD_HypothesisFiltering_ValueTooLong
  1. Pour corriger la valeur 95, un nouvel élément de recherche est créé. Cet élément de recherche, nommé DocNumber_Corrected, doit se situer dans la région de l’élément de recherche 95 et contenir un nombre limité de caractères.
AD_HypothesisFiltering_CorrectedProperties
  1. La zone de recherche du nouvel élément est restreinte pour correspondre à la région 95 en ajoutant la ligne suivante au code de l’élément :
RestrictSearchArea: 95.Region;
  1. L’élément de recherche corrigé est associé au champ qui extrait le numéro de document :
AD_HypothesisFiltering_CorrectedMapping Par conséquent, le numéro de document extrait n’inclura pas la partie après le tiret : AD_HypothesisFiltering_ValueCorrected

Exemple 2 : Sélectionner une seule valeur parmi plusieurs valeurs répétées

Dans cet exemple, une activité de Deep Learning est entraînée à trouver toutes les occurrences du numéro de document, mais le résultat final de la compétence n’a besoin que d’un seul champ Numéro de document. Pour cela, le paramètre Allow Multiple Items est désactivé pour le champ Document Number et des conditions sont définies pour sélectionner la bonne occurrence du numéro de document.
Remarque : Nous recommandons d’enregistrer l’ensemble de documents annotés dans un dossier au préalable. Lorsque vous désactivez le paramètre Allow Multiple Items pour un champ, toutes les occurrences supplémentaires de ce champ seront supprimées de l’annotation. Le modèle entraîné dans l’activité de Deep Learning continuera de fonctionner, mais si vous souhaitez le modifier et le réentraîner, vous devrez charger l’ensemble de documents d’origine.
  1. Le paramètre Allow Multiple Items est désactivé pour le champ Document Number (ce paramètre est accessible en cliquant sur Manage Fields).
AD_HypothesisFiltering_NoMultiples
  1. L’élément de recherche 95 avec plusieurs occurrences ne peut pas être mappé au champ Document Number. Un nouvel élément de recherche Deep Learning est donc créé à partir de la sortie « document number » de l’activité de Deep Learning et mappé au champ Document Number.
AD_HypothesisFiltering_MapNoMultiples
  1. Les occurrences multiples du numéro de document trouvées par l’activité de Deep Learning sont utilisées pour construire un arbre d’hypothèses, dont une seule sera sélectionnée comme valeur de l’élément de recherche 95.
AD_HypothesisFiltering_HypTree
  1. Pour trouver une occurrence particulière, certaines conditions sont ajoutées pour l’élément de recherche 95 (dans ce cas, nous voulons trouver l’occurrence la plus haute du numéro de document).
AD_HypothesisFiltering_TopmostInstance

Exemple 3 : combiner les résultats de deux activités de Deep Learning

Un conteneur Hypothesis Filtering permet de combiner les résultats de deux activités de Deep Learning ou plus afin de les comparer entre eux ou simplement d’affiner ces résultats au sein de la même activité. Dans cet exemple, deux activités de Deep Learning sont nécessaires, car une seule activité de Deep Learning ne peut pas être entraînée pour extraire à la fois des champs de texte et des tableaux. Une condition est ajoutée, spécifiant que l’élément de recherche Company_Address doit toujours se trouver au-dessus de l’élément de recherche Goods_Table. Par conséquent, la bonne adresse sera trouvée même si d’autres adresses figurent en bas de la page. AD_HypothesisFiltering_AboveTable