Entraîner vos modèles NLP - ABBYY Documentation

Après avoir publié votre Document Definition, fermez la boîte de dialogue Document Definition, puis accédez à la section Field Extraction Training Batches et créez un nouveau lot de documents.

Cliquez sur File et sélectionnez New Batch.
Dans la boîte de dialogue qui s’ouvre, sélectionnez le Document Definition que vous avez créé précédemment, puis la section pour laquelle vous avez configuré des champs, et cliquez sur OK.
Dans la fenêtre Look up Variant for Training Batch, sélectionnez la variante à utiliser pour l’entraînement.
Sélectionnez le lot nouvellement créé, puis choisissez soit l’option de lot NLP, soit Field extraction training > NLP batch.

Capture d’écran de la vue Field Extraction Training Batches dans ABBYY FlexiCapture, avec un lot sélectionné, son menu contextuel ouvert et l’option NLP batch cochée.

Vous devez maintenant charger les documents qui seront utilisés pour entraîner le modèle NLP.

Ouvrez le lot que vous avez créé en double-cliquant dessus.
Cliquez sur File > Load Images….
Dans la boîte de dialogue qui s’ouvre, cliquez sur Image Processing Settings…, sélectionnez l’option Un document par fichier, puis cliquez sur OK.
Choisissez les documents à utiliser pour l’entraînement du modèle NLP.
Une fois tous les documents chargés, sélectionnez-les, puis cliquez sur Recognition > Match Document Definition. Vous pouvez aussi cliquer avec le bouton droit sur la sélection, puis sur Match Document Definition. Choisissez ensuite le Document Definition approprié.

La qualité d’un modèle NLP entraîné dépend du nombre de documents dans le lot d’entraînement et de la qualité de leur balisage. Veuillez noter ce qui suit :

Tous les champs décrits par le Document Definition doivent être balisés dans les documents d’entraînement.
Il est recommandé d’avoir entre 100 et 500 documents dans chaque lot d’entraînement. Ce nombre permettra au programme de sélectionner les meilleurs paramètres pour votre modèle NLP sans ralentir le processus d’entraînement.

Après avoir chargé les documents, vous devez baliser manuellement les champs de chaque document afin que les modèles NLP sachent où rechercher les entités. Pour ce faire, procédez comme suit pour chaque document :

Double-cliquez sur un document pour l’ouvrir.
Sélectionnez un champ dont les informations doivent être extraites du document. Ensuite, sélectionnez la valeur du champ dans le document ou tracez un rectangle autour. Répétez cette étape pour chaque champ.
Passez au document suivant en cliquant sur le bouton . Répétez les étapes ci-dessus pour tous les autres documents.
Enregistrez les modifications.

Après avoir balisé tous les documents, revenez à la vue Field Extraction Training Batches. Cliquez avec le bouton droit sur le lot, puis cliquez sur Train dans le menu contextuel. Une fois entraîné, le modèle est prêt à être utilisé. Les résultats de l’entraînement peuvent être désactivés ou supprimés. Pour désactiver les résultats de l’entraînement, cliquez avec le bouton droit sur le lot d’entraînement et sélectionnez l’élément Disabled dans le menu contextuel. Pour supprimer les résultats de l’entraînement, cliquez avec le bouton droit sur le lot d’entraînement et sélectionnez l’élément Delete dans le menu contextuel. Si vous devez utiliser votre modèle NLP entraîné dans un autre projet, importez simplement le lot d’entraînement et le Document Definition associé dans ce projet.