Création de modèles NLP - ABBYY Documentation

Création de champs de document Pour chaque entité que vous souhaitez extraire, un champ correspondant doit être créé dans le Document Definition. Pour créer un champ :

Dans le Document Definition Editor, cliquez avec le bouton droit sur le nom de la Document Section et sélectionnez Create Field.
Créez un champ Text.
Dans l’onglet Général, sélectionnez l’option Can have region.
Dans le champ Name, indiquez un nom pour le champ (par exemple, PreambleSegment). Important ! Les noms de champ ne doivent pas contenir d’espaces, ni de caractères non anglais, ni commencer par un chiffre.

Capture d’écran de l’onglet General de la boîte de dialogue Properties du champ dans le ABBYY FlexiCapture Document Definition Editor, avec le champ nommé PreambleSegment et les options Can have region et Text segment sélectionnées.

Répétez les étapes ci-dessus pour chaque entité.

Si la segmentation est utilisée, un champ Text distinct doit être créé pour chaque segment.

Pour chaque segment duquel des entités seront extraites :

Créez un champ non répétable dans un groupe répétitif.
Sélectionnez l’option Text segment dans les propriétés du champ.
Sélectionnez l’option Allow multiple regions si certains segments commencent sur une page et se terminent sur une autre.

Création d’un modèle NLP de segmentation La segmentation améliore la précision et la rapidité de l’extraction d’entités. Elle est facultative. Un modèle NLP spécial est requis pour segmenter les documents. Important ! Vous ne pouvez avoir qu’un seul modèle de segmentation pour chaque section de document. Pour créer un modèle de segmentation :

Dans le Document Definition Editor, cliquez avec le bouton droit sur le nom de la Document Section.
Sélectionnez Properties…
Dans la boîte de dialogue qui s’ouvre, cliquez sur l’onglet NLP, puis sur Create…
Dans le champ Name, indiquez un nom pour votre modèle de segmentation (par exemple, SegmentationModel).
Dans le champ Model type, choisissez Segmentation.
Dans la liste Language, sélectionnez la langue requise.
Cliquez sur Next…
Dans la boîte de dialogue qui s’ouvre, indiquez tous les champs dans lesquels les segments seront extraits.
Cliquez sur OK.

Une fois le modèle de segmentation créé, vous devez l’entraîner sur des exemples de documents.

L’option Allow training vous permet d’entraîner votre modèle NLP pendant le traitement des documents. Votre modèle NLP sera entraîné lorsque vous entraînerez l’extraction de champs à l’aide d’un lot d’entraînement d’extraction de champs. Les résultats de l’entraînement peuvent être désactivés ou supprimés. Pour désactiver les résultats de l’entraînement, cliquez avec le bouton droit sur le lot d’entraînement et sélectionnez l’élément Disabled dans le menu contextuel. Pour supprimer les résultats de l’entraînement, cliquez avec le bouton droit sur le lot d’entraînement et sélectionnez l’élément Delete dans le menu contextuel.

Création d’un modèle NLP d’extraction d’entités Pour extraire des entités, vous avez besoin d’un modèle NLP d’extraction d’entités entraîné sur des documents annotés manuellement. Pour créer un modèle NLP :

Dans le Document Definition Editor, ouvrez les propriétés de la section de document et cliquez sur l’onglet NLP.
Cliquez sur Create…
Indiquez un Name pour votre modèle NLP (par exemple, EntitiesExtraction).
Pour la source de données, sélectionnez soit une section (si aucune segmentation n’est utilisée), soit un segment (si vous avez choisi d’utiliser la segmentation).
Dans le champ Model type, choisissez Extraction.
Dans la liste Language, sélectionnez la langue requise.
Cliquez sur Next…
Choisissez les champs de résultat qui seront extraits de la section ou du segment de document sélectionné.

Répétez les étapes 1 à 9 pour chaque segment ou section de document duquel des entités doivent être extraites.

Cliquez sur Document Definition > Save pour enregistrer votre Document Definition.
Cliquez sur Document Definition > Close pour fermer le Document Definition Editor.
Cliquez sur Document Definition > Publish pour publier votre Document Definition.

Une fois le modèle NLP d’extraction d’entités créé, vous devez l’entraîner sur des exemples de documents.

L’option Allow training vous permet d’entraîner votre modèle NLP pendant le traitement des documents. Votre modèle NLP sera entraîné lorsque vous entraînerez l’extraction de champs à l’aide d’un lot d’entraînement d’extraction de champs. Les résultats de l’entraînement peuvent être désactivés ou supprimés. Pour désactiver les résultats de l’entraînement, cliquez avec le bouton droit sur le lot et sélectionnez l’élément Disabled dans le menu contextuel. Pour supprimer les résultats de l’entraînement, cliquez avec le bouton droit sur le lot et sélectionnez l’élément Delete dans le menu contextuel.