Entraînement des modèles NLP à partir des retours des opérateurs de vérification

La qualité de l’extraction de données peut être améliorée grâce à un entraînement supplémentaire des modèles NLP par les opérateurs. Si le programme ne parvient pas à détecter certains champs ou confond un champ avec un autre, l’opérateur de vérification peut indiquer le champ correct et réentraîner le modèle NLP. Le programme utilisera alors le modèle réentraîné pour une extraction de données plus précise.

L’entraînement supplémentaire n’est pas disponible pour les modèles NLP chargés dans les Document Definitions.

Il existe deux façons de lancer l’entraînement d’un modèle NLP pendant la vérification. Vous pouvez :

Ajouter une étape d’entraînement après l’étape de vérification. L’entraînement démarrera lorsque les conditions spécifiées pour le lot d’entraînement seront remplies. Pour plus d’informations sur la configuration des étapes du workflow, voir Configuration du workflow.
Envoyer manuellement des documents à l’étape d’entraînement. Pour ce faire, cliquez avec le bouton droit sur le document dans le lot de travail et sélectionnez Train dans le menu contextuel.

En règle générale, la procédure d’entraînement se déroule comme suit :

Lorsque l’entraînement est lancé, ABBYY FlexiCapture crée automatiquement un lot d’entraînement générique dans la liste des lots d’entraînement (s’il n’en existe pas déjà un). Tous les documents associés à une Document Definition spécifique sont copiés dans ce lot, quelle que soit leur variante.
Chaque document reçoit le statut For training ou For testing.
Les documents marqués For training servent à l’entraînement. Cela aboutit à la création d’un nouveau modèle NLP.
Le nouveau modèle créé pendant l’entraînement est ensuite testé à l’aide des documents marqués For testing.
Si les performances globales du nouveau modèle ne sont pas inférieures à celles du modèle existant, ce dernier sera remplacé par le nouveau. Sinon, le nouveau modèle sera rejeté.

Lors du traitement des documents, il peut arriver que, pour certains documents, l’emplacement des champs diffère considérablement, alors même qu’ils contiennent des jeux de champs identiques. Afin d’améliorer la qualité de reconnaissance de tels documents, créez des lots d’entraînement distincts pour chaque variante de document. Création d’un lot d’entraînement pour l’extraction de champs pour un fournisseur ou une variante spécifique Pour entraîner des documents provenant d’un fournisseur spécifique ou appartenant à une variante particulière, vous devez créer un nouveau lot. Procédez comme suit :

Dans Project Setup Station, ouvrez le projet contenant le modèle NLP. Pour plus d’informations sur la configuration d’un modèle NLP, voir Création de modèles NLP.
Accédez à Field Extraction Training Batches en sélectionnant Fields Training > Open Field Extraction Training Batches. Vous pouvez aussi utiliser le raccourci Ctrl + Alt + B, ou sélectionner Field Extraction Training Batches dans le menu contextuel.
Créez un nouveau lot en sélectionnant File > New Batch. Vous pouvez également utiliser le raccourci Ctrl + N. Choisissez la Document Definition et la variante appropriées, puis sélectionnez l’option NLP Batch dans le menu contextuel.
Ajoutez vos documents, lancez leur reconnaissance, modifiez l’ordre des sections et démarrez l’entraînement en sélectionnant Train dans le menu contextuel. Vous pouvez également utiliser le raccourci Ctrl + F7 ou cliquer sur le bouton Train Batch dans la barre d’outils.

La qualité d’un modèle NLP entraîné dépend du nombre de documents dans le lot d’entraînement et de la qualité de leur balisage. Veuillez noter les points suivants :

Tous les champs décrits par la Document Definition doivent être balisés dans les documents d’entraînement.
Il est recommandé d’avoir entre 100 et 500 documents dans chaque lot d’entraînement. Ce nombre de documents permettra au programme de sélectionner les meilleurs paramètres pour votre modèle NLP sans ralentir le processus d’entraînement.

Lorsque les retours des opérateurs sont utilisés pour l’entraînement, de nouveaux documents sont ajoutés à la fois au lot d’entraînement et au lot de variantes.

Pour une variante disposant d’un lot d’entraînement existant, le modèle NLP créé pour ce lot particulier sera utilisé.
Pour toutes les autres variantes, le modèle NLP créé pour le lot d’entraînement générique sera utilisé.

Si un document identique à un document déjà présent dans un lot d’entraînement y est ajouté depuis la même source, le nouveau document remplacera l’ancien. Cette opération sera également consignée dans le journal des tâches en arrière-plan de la tâche d’entraînement. Le programme utilise les paramètres d’enregistrement du document pour déterminer s’il s’agit ou non d’une copie d’un document existant. Après avoir créé le lot, vous pouvez définir des options supplémentaires. Pour ce faire, sélectionnez Show NLP Batch Settings… Les options supplémentaires suivantes peuvent être définies dans la boîte de dialogue Training Batch Settings :

Nombre maximal de documents dans chaque lot d’entraînement Si le nombre maximal de documents est atteint, tout nouveau document ajouté à un lot d’entraînement remplacera un ancien document.
Pourcentage maximal de documents remplacés Indique le pourcentage d’anciens documents pouvant être remplacés par de nouveaux au cours d’une session d’entraînement. Les documents qui ont été envoyés à l’étape d’entraînement, mais n’ont pas été inclus dans le lot, ne seront pas utilisés pour entraîner le nouveau modèle NLP.
Démarrer l’entraînement si le lot contient plus de __ nouveaux documents ou plus de __ % de nouveaux documents L’entraînement démarrera dès qu’au moins une des conditions suivantes sera remplie : le nombre de nouveaux documents ajoutés à un lot d’entraînement est supérieur à la valeur spécifiée ; le pourcentage de nouveaux documents par rapport au nombre total de documents du lot est égal ou supérieur à la valeur spécifiée. Sinon, l’entraînement ne démarrera pas et une entrée sera ajoutée au journal des tâches en arrière-plan indiquant qu’il n’y a pas assez de nouveaux documents pour démarrer l’entraînement.
Pourcentage de documents à utiliser pour l’entraînement Indique le pourcentage de documents marqués For testing et For training. Par exemple, si vous limitez à 70 % la part des documents « For training », les 30 % restants seront marqués « For testing ».

Statistiques d’entraînement Une fois l’entraînement terminé, les statistiques d’un modèle NLP peuvent être exportées. Cela comprend les éléments suivants :

Informations sur les paramètres du lot d’entraînement.
Informations sur le nouveau modèle NLP et l’ancien.
Durée de l’entraînement.
Version du composant NLP utilisé pour entraîner le modèle NLP.
Statistiques d’entraînement des documents et des champs.
Informations sur l’actualité des données exportées. Si le paramètre isActual est false, le lot a été modifié après l’entraînement et la création d’un nouveau modèle NLP : des documents ont pu être ajoutés ou supprimés, le balisage des documents a pu être modifié, etc. Pour obtenir des statistiques à jour, l’entraînement doit être relancé.

Pour exporter le journal d’un lot d’entraînement, cliquez avec le bouton droit sur le lot, cliquez sur Export Field Extraction Statistics… dans le menu contextuel, puis indiquez l’emplacement où vous souhaitez enregistrer le fichier CSV.