Configuration de l’auto-apprentissage pour l’extraction de champs

L’auto-apprentissage permet au système d’apprendre des décisions prises par les opérateurs lors du traitement des documents afin d’améliorer la détection des champs dans les documents. Lorsque le système ne parvient pas à trouver un champ sur un document, un opérateur peut intervenir et indiquer son emplacement correct. Une fois les documents reconnus et corrigés exportés avec succès, le système utilise les corrections apportées par l’opérateur comme données d’apprentissage.

Configuration de l’auto-apprentissage

Pour configurer l’auto-apprentissage, procédez comme suit :

Créez une définition de document.
Dans les propriétés de section de la définition de document, sélectionnez Autoriser l’entraînement de l’emplacement des champs.
Créez les champs nécessaires dans la section. Sélectionnez Can have region dans les propriétés de chaque champ.
Enregistrez et publiez la définition de document.
Dans la boîte de dialogue des propriétés du type de lot, cliquez sur Workflow et activez l’étape d’entraînement.

Pour configurer l’auto-apprentissage pour des documents du même type dont l’apparence varie fortement d’un document à l’autre, créez des variantes pour chaque disposition particulière des champs, puis entraînez un classificateur à différencier ces variantes. Pour en savoir plus sur les variantes, voir Emplacements variables des champs sur des documents appartenant au même type.

Étapes supplémentaires requises pour configurer les variantes

Pour permettre au système d’utiliser des variantes dans l’auto-apprentissage, procédez comme suit :

Ajoutez des variantes de section à l’aide de l’une des trois méthodes suivantes :

Créez des variantes manuellement. Pour ce faire, cliquez sur l’onglet Jeux de données dans les propriétés de la section, puis sur le bouton View… Cliquez ensuite sur le bouton Add… pour ajouter des variantes.
- Chargez des variantes à partir d’une base de données. Pour ce faire, cliquez sur l’onglet Jeux de données dans les propriétés de la section, puis sur le bouton Set Up… Dans la liste déroulante, sélectionnez Database comme source de données.
- Créez des variantes à l’aide d’un script. Pour ce faire, cliquez sur l’onglet Jeux de données dans les propriétés de la section, puis sur le bouton Set Up… Dans la liste déroulante, sélectionnez Script comme source de données.

Enregistrez et publiez la définition de document.
Entraînez un classificateur sur les variantes nouvellement créées :

Passez en mode Open Classifier Training Batches et chargez des images de documents dans un nouveau lot.
- Attribuez une classe de référence à chaque document, en utilisant les variantes comme classes distinctes :
  - Cliquez sur Set Class… → Add… → Add…
  - Sélectionnez Specify variant.
  - Sélectionnez une variante dans la liste.
- Entraînez un classificateur en cliquant sur (Project → Classification Training → Train).

Lorsque vous travaillez avec les résultats de l’entraînement, vous devrez peut-être vérifier quelle variante a été attribuée à un document et la modifier si nécessaire. Pour afficher les ID des variantes dans le formulaire, créez un champ de service. Pour plus de détails, voir Permettre aux opérateurs de modifier les variantes.

L’entraînement de l’extraction de champs peut également être effectué par l’administrateur si un projet doit être entraîné avant que les opérateurs ne commencent à travailler dessus.

Une fois la définition de document configurée par l’administrateur, le système apprendra automatiquement à partir des corrections effectuées par les opérateurs dans les Verification Stations.

La procédure d'auto-apprentissage

Les documents dont l’emplacement des champs a été vérifié et corrigé par les opérateurs sont placés dans un lot d’entraînement.Les documents sont comparés à la version actuelle du FlexiLayout entraîné. Si tous les champs sont correctement trouvés, il n’est pas nécessaire de réentraîner le FlexiLayout.

Il peut arriver que le FlexiLayout trouve correctement les champs, mais que l’opérateur ait dû les modifier. Les documents ont été traités à l’aide d’une ancienne version ou d’une version non entraînée du FlexiLayout. Pendant que les documents attendaient la vérification, le système a entraîné le FlexiLayout sur d’autres documents. Par conséquent, ces documents sont désormais traités correctement.Dans ce cas, les documents sont conservés dans le lot d’entraînement avec le statut For testing. Ils seront utilisés pour des tests de régression afin d’éviter toute dégradation des futures versions du FlexiLayout.

Si un FlexiLayout entraîné est appliqué et que certaines régions de champ ne correspondent pas, les documents seront utilisés pour entraîner une nouvelle version du FlexiLayout. Le statut For training leur sera attribué.Le résultat de l’entraînement est une nouvelle version du FlexiLayout. Pour comparer la nouvelle version à la version précédente, les deux sont appliquées aux documents du lot d’entraînement qui ont les statuts For training et For testing. Le système vérifie dans quelle mesure les régions de champ détectées correspondent à la disposition validée par l’utilisateur. Le FlexiLayout offrant la meilleure correspondance sera utilisé pour le traitement ultérieur des documents, et la version moins performante sera supprimée.

​Configuration de l’auto-apprentissage

Configuration de l’auto-apprentissage