Pour annoter un document, marquez les Regions qui contiennent les valeurs des champs et indiquez à la compétence le type de données de chaque champ. Avant de commencer, choisissez la méthode de sélection adaptée à la forme du champ, puis suivez les consignes correspondant au type de document : structurés, semi-structurés ou non structurés.Documentation Index
Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt
Use this file to discover all available pages before exploring further.
Méthodes de sélection
| Méthode | Idéal pour |
|---|---|
| Survolez un mot, puis cliquez dessus | Champs composés d’un seul mot |
| Faites glisser un rectangle autour des mots | Documents semi-structurés |
| Cliquez sur le premier mot, puis faites glisser jusqu’au dernier (en maintenant le bouton gauche de la souris enfoncé) | Documents non structurés |
Documents structurés
- Délimitez précisément la région de chaque champ — les seules valeurs des champs ne suffisent pas pour l’entraînement.
- Marquez l’intégralité de la zone réservée, et non la valeur qu’elle contient.
- Si un champ ne contient aucune valeur, marquez quand même la zone réservée vide.
- Pour les champs en plusieurs parties, maintenez la touche Maj enfoncée pour ajouter d’autres parties. Toutes les parties doivent se trouver sur la même page.
- Pour les tableaux d’un formulaire à structure fixe, annotez chaque ligne, y compris les lignes vides.
- Si vous ajoutez un nouveau champ après l’annotation, revenez en arrière et annotez ce champ sur chaque document du jeu d’entraînement.
Documents semi-structurés
- Définissez précisément la région de chaque champ — les valeurs des champs seules ne suffisent pas pour l’entraînement.
- Cliquez sur la valeur du champ (le ou les mots qu’elle contient) ; la région est créée automatiquement.
- Si un champ ne contient aucune valeur, ne créez pas de région pour celui-ci.
- Ne marquez pas de parties de mots — le système d’entraînement n’apprend qu’à partir de mots entiers.
- Pour les champs en plusieurs parties, maintenez Maj enfoncée pour ajouter des parties supplémentaires. Toutes les parties doivent se trouver sur la même page.
- Ne demandez pas au programme de rechercher des champs à l’intérieur de la région d’un autre champ (qu’il s’agisse d’un champ individuel comme une adresse ou d’une cellule de tableau comme Description). Pour extraire des données d’une grande région, enchaînez les activités : une activité d’extraction semi-structurée pour trouver la région, puis une activité NLP Extraction Rules ou une règle de script pour en extraire des champs spécifiques.
- Si vous ajoutez un nouveau champ après l’annotation, revenez et annotez ce champ dans chaque document du jeu d’entraînement.
Tableaux et groupes répétitifs
| Utilisez ceci | Quand |
|---|---|
| Tableau | Données tabulaires avec un en-tête commun et des valeurs sans mots-clés adjacents |
| Groupe répétitif avec l’option Autoriser plusieurs éléments | Données moins structurées, où les mots-clés se trouvent à côté des valeurs |
Documents non structurés
- Définissez précisément la région de chaque champ — les valeurs des champs seules ne suffisent pas pour l’entraînement.
- Pour les segments (champs entraînés par l’activité Segmentation), incluez un ou plusieurs paragraphes entiers. Un segment ne peut pas inclure seulement une partie de paragraphe.
- Cliquez sur la valeur du champ (le ou les mots qu’il contient) ; la région est créée automatiquement.
- Si un champ ne contient aucune valeur, ne créez pas de région pour ce champ.
- Ne marquez pas de fragments de mots — le système apprend uniquement à partir de mots entiers.
- Si un mot est suivi d’un signe de ponctuation, ajustez la région pour que la ponctuation n’y soit pas incluse.
- Une région de champ peut s’étendre sur plusieurs pages (par exemple, une clause de contrat). Annotez la première partie sur la première page, puis maintenez Maj enfoncée tout en continuant sur la page suivante.
- Pour annoter un champ à l’intérieur de la région d’un autre champ (par exemple, un champ dans un segment), sélectionnez le champ interne et commencez l’annotation — cette action crée une nouvelle région au lieu de sélectionner la région externe.
C’est l’inverse de la règle applicable ci-dessus aux documents semi-structurés : dans les documents non structurés, les segments sont conçus pour contenir des champs internes, donc l’annotation en leur sein est intentionnelle. Dans les documents semi-structurés, l’imbrication équivalente crée des conflits d’entraînement.
Annotation de documents
Réutilisez des documents annotés issus de jeux d’entraînement, de la relecture manuelle ou de FlexiCapture.
Importation depuis FlexiCapture
Format et procédure de réutilisation de documents annotés dans FlexiCapture.
Catégories de documents
Présentation des documents structurés, semi-structurés, non structurés et mixtes.
activité Segmentation
Sert à segmenter les champs dans des documents non structurés.
