- Survolez un mot et cliquez dessus. Une région sera créée et le mot sera copié dans le champ. Utilisez cette méthode pour étiqueter les champs ne contenant qu’un seul mot.
- Dessinez un rectangle autour de plusieurs mots. Tous les mots à l’intérieur de ce rectangle seront copiés dans le champ. Nous recommandons cette méthode pour étiqueter des documents semi-structurés.
- Sélectionnez une région en cliquant sur le premier mot de la séquence puis, tout en maintenant le bouton gauche de la souris enfoncé, faites glisser le curseur jusqu’au dernier mot de la séquence. Nous recommandons cette méthode pour étiqueter des documents non structurés.
Documents structurés
- Veillez à spécifier avec précision la zone de chaque champ, car les seules valeurs de champ ne suffisent pas pour l’entraînement.
- Pour délimiter la zone d’un champ, ne cliquez pas sur sa valeur, mais délimitez plutôt l’intégralité de l’espace réservé.
- Si un champ ne contient aucune valeur, délimitez l’espace réservé vide.
- Si un champ est composé de plusieurs parties, maintenez la touche Maj enfoncée pour ajouter les parties. Notez que toutes les parties doivent se trouver sur la même page.
- Si un formulaire fixe contient un tableau, délimitez toutes les lignes, y compris celles qui sont vides.
- Si un champ est ajouté après qu’une partie de l’annotation a déjà été réalisée, ce nouveau champ doit être annoté sur tous les documents de l’ensemble d’entraînement. Passez en revue tous vos documents et annotez le nouveau champ sur tous les documents où il apparaît.
Documents semi-structurés
- Veillez à définir avec précision la région de chaque champ, car les seules valeurs des champs ne suffisent pas pour l’entraînement.
- Pour délimiter la région d’un champ, cliquez sur sa valeur (c’est‑à‑dire le ou les mots qu’il contient) ; la région sera créée automatiquement.
- Si un champ ne contient aucune valeur, ne créez pas de région pour ce champ.
- Ne marquez pas des parties de mots, car le programme n’apprend qu’à partir de mots entiers.
- Si un champ est composé de plusieurs parties, maintenez la touche Shift enfoncée pour ajouter les parties. Notez que toutes les parties doivent se trouver sur la même page.
- Si vous avez une structure répétitive, analysez d’abord vos documents et créez soit un tableau, soit un groupe répétitif. Si vos documents contiennent des tableaux avec un en-tête commun et des valeurs qui n’ont aucun mot-clé à proximité, créez un tableau. Si vos données sont moins structurées et comportent des mots-clés placés à côté des valeurs, créez un groupe avec l’option Allow multiple items. Si les données sont organisées différemment selon les documents, sélectionnez l’option qui convient le mieux à la majorité des documents.
- Lors de l’annotation d’un tableau, marquez la première ligne, puis cliquez sur Continue table from this row, en vous assurant que l’ensemble du tableau a été correctement annoté. Pour marquer les cellules de la première ligne, cliquez sur ses cellules une à une ; les colonnes correspondantes seront créées automatiquement. Poursuivez jusqu’à ce que tout le tableau ait été marqué.
- N’indiquez pas au programme de rechercher des champs à l’intérieur de la région d’un autre champ, qu’il s’agisse d’un champ individuel (par exemple une adresse) ou d’une cellule de tableau (par exemple « Description »). Si vous devez extraire des données d’un grand fragment de texte, utilisez une séquence d’activités. Commencez par une activité conçue pour extraire des données à partir de documents semi-structurés et entraînez-la à trouver la région souhaitée. Ensuite, pour extraire des champs spécifiques de cette région, utilisez une activité conçue pour l’extraction de données à partir de texte (NLP) ou implémentez vos propres règles de script.
- Si un champ est ajouté après qu’une partie de l’annotation a déjà été effectuée, ce nouveau champ doit être annoté sur tous les documents de l’ensemble d’entraînement. Passez en revue tous vos documents et annotez le nouveau champ sur tous ceux où il apparaît.
Documents non structurés
- Veillez à définir avec précision la région de chaque champ, car les seules valeurs de champ ne suffisent pas pour l’entraînement.
- Lors de l’annotation des segments (comme les champs entraînés dans l’activité Segmentation), les régions doivent inclure un ou plusieurs paragraphes entiers. Un segment ne peut pas ne contenir qu’une partie de paragraphe.
- Pour délimiter la région d’un champ, cliquez sur sa valeur (par exemple, le ou les mots qu’il contient) et la région sera créée automatiquement.
- Si un champ ne contient aucune valeur, ne créez pas de région pour ce champ.
- Ne marquez pas des parties de mots, car le programme n’apprend qu’à partir de mots entiers.
- Parfois, la région d’un champ peut déborder sur la page suivante (par exemple, une clause dans un contrat). Dans ce cas, annotez une partie du champ sur la première page, puis continuez l’annotation sur la page suivante en maintenant la touche Maj enfoncée.
- Lors de la création d’une région pour un champ à l’intérieur de la région d’un autre champ (par exemple, pour délimiter un champ à l’intérieur d’un segment), sélectionnez le champ souhaité et commencez simplement à l’annoter à l’intérieur de la région de l’autre champ. Cela ne sélectionnera pas la région existante mais créera une nouvelle région pour le champ sélectionné.
