- Survolez un mot et cliquez dessus. Une région sera créée et le mot sera copié dans le champ. Utilisez cette méthode pour étiqueter les champs ne contenant qu’un seul mot.
- Dessinez un rectangle autour de plusieurs mots. Tous les mots à l’intérieur de ce rectangle seront copiés dans le champ. Nous recommandons d’utiliser cette méthode pour étiqueter les documents semi-structurés.
- Sélectionnez une région en cliquant sur le premier mot de la séquence puis, en maintenant le bouton gauche de la souris enfoncé, faites glisser le curseur jusqu’au dernier mot de la séquence. Nous recommandons d’utiliser cette méthode pour étiqueter les documents non structurés.
Documents structurés
- Veillez à spécifier avec précision la zone de chaque champ, car les valeurs de champ à elles seules ne suffisent pas pour l’entraînement.
- Pour délimiter la zone d’un champ, ne cliquez pas sur sa valeur, mais marquez plutôt l’intégralité de l’espace réservé.
- Si un champ ne contient aucune valeur, marquez l’espace réservé vide.
- Si un champ se compose de plusieurs parties, maintenez la touche Shift enfoncée pour ajouter les parties. Veuillez noter que toutes les parties doivent se trouver sur la même Page.
- Si un formulaire fixe contient un tableau, marquez toutes les lignes, y compris celles qui sont vides.
- Si un champ est ajouté après qu’un certain étiquetage a déjà été effectué, ce nouveau champ doit être annoté sur tous les documents de l’ensemble d’entraînement. Veuillez passer en revue tous vos documents et annoter le nouveau champ sur tous les documents où il apparaît.
Documents semi-structurés
- Veillez à spécifier avec précision la zone de chaque champ, car les seules valeurs de champ ne suffisent pas à l’entraînement.
- Pour délimiter la zone d’un champ, cliquez sur sa valeur (le ou les mots qu’il contient) ; la zone sera créée automatiquement.
- Si un champ ne contient aucune valeur, ne créez pas de zone pour ce champ.
- Ne marquez pas de parties de mots, car le programme n’apprend qu’à partir de mots entiers.
- Si un champ se compose de plusieurs parties, maintenez la touche Maj enfoncée pour ajouter les parties. Notez que toutes les parties doivent se trouver sur la même page.
- Si vous avez une structure répétitive, analysez d’abord vos documents et créez soit un tableau, soit un groupe répétitif. Si vos documents contiennent des tableaux avec un en-tête commun et des valeurs sans mots-clés adjacents, créez un tableau. Si vos données sont moins structurées et comportent des mots-clés situés à côté des valeurs, créez un groupe avec l’option Autoriser plusieurs éléments. Si les données sont organisées différemment selon les documents, sélectionnez l’option qui convient le mieux à la majorité des documents.
- Lors de l’étiquetage d’un tableau, marquez la première ligne, puis cliquez sur Poursuivre le tableau à partir de cette ligne, en vous assurant que l’ensemble du tableau a été correctement étiqueté. Pour marquer les cellules de la première ligne, cliquez sur ses cellules une à une ; les colonnes correspondantes seront créées automatiquement. Procédez jusqu’à ce que tout le tableau soit marqué.
- N’indiquez pas au programme de rechercher des champs à l’intérieur de la zone d’un autre champ, qu’il s’agisse d’un champ individuel (par exemple, une adresse) ou d’une cellule de tableau (par exemple, « Description »). Si vous devez extraire des données d’un large fragment de texte, utilisez une séquence d’activités. Commencez par une activité conçue pour extraire des données de documents semi-structurés et entraînez-la à trouver la zone souhaitée. Ensuite, pour extraire des champs spécifiques de cette zone, utilisez une activité conçue pour extraire des données à partir de texte (NLP) ou implémentez vos propres règles de script.
- Si un champ est ajouté après que certains étiquetages ont déjà été effectués, ce nouveau champ doit être étiqueté sur tous les documents de l’ensemble d’entraînement. Veuillez examiner tous vos documents et étiqueter le nouveau champ sur tous les documents où il apparaît.
Documents non structurés
- Veillez à définir avec précision la région de chaque champ, car les seules valeurs de champ ne suffisent pas pour l’entraînement.
- Lors de l’étiquetage des segments (comme les champs entraînés dans l’activité Segmentation), les régions doivent inclure un ou plusieurs paragraphes entiers. Un segment ne peut pas inclure uniquement une partie de paragraphe.
- Pour délimiter la région d’un champ, cliquez sur sa valeur (le ou les mots qu’il contient) et la région sera créée automatiquement.
- Si un champ ne contient aucune valeur, ne créez pas de région pour ce champ.
- Ne marquez pas des parties de mots, car le programme ne peut apprendre qu’à partir de mots entiers.
- Parfois, la région d’un champ peut déborder sur la page suivante (par exemple, une clause dans un contrat). Dans ce cas, étiquetez une partie du champ sur la première page, puis continuez l’étiquetage sur la page suivante en maintenant la touche Maj enfoncée.
- Lors de la création d’une région pour un champ à l’intérieur de la région d’un autre champ (par exemple, pour délimiter un champ à l’intérieur d’un segment), sélectionnez le champ souhaité et commencez simplement à l’étiqueter dans la région de l’autre champ. Cela ne sélectionnera pas la région existante mais créera une nouvelle région pour le champ sélectionné.
