Passer au contenu principal
Vous devez étiqueter un certain nombre de documents afin d’entraîner et de tester une compétence. Pour ce faire, sélectionnez des régions du document qui contiennent des valeurs de champ. Pour sélectionner une région, effectuez l’une des opérations suivantes :
  • Survolez un mot et cliquez dessus. Une région sera créée et le mot sera copié dans le champ. Utilisez cette méthode pour étiqueter les champs ne contenant qu’un seul mot.
  • Dessinez un rectangle autour de plusieurs mots. Tous les mots à l’intérieur de ce rectangle seront copiés dans le champ. Nous recommandons cette méthode pour étiqueter des documents semi-structurés.
  • Sélectionnez une région en cliquant sur le premier mot de la séquence puis, tout en maintenant le bouton gauche de la souris enfoncé, faites glisser le curseur jusqu’au dernier mot de la séquence. Nous recommandons cette méthode pour étiqueter des documents non structurés.
Les directives ci-dessous vous aideront à étiqueter correctement vos documents selon leur type.

Documents structurés

Les documents structurés contiennent toujours exactement le même type d’informations aux mêmes emplacements. Un exemple de documents structurés est celui des formulaires préformatés. Vous n’aurez besoin d’annoter que quelques documents d’exemple pour l’entraînement, car leur mise en page ne varie pas. Suivez les consignes ci-dessous lors de l’annotation de documents structurés.
  • Veillez à spécifier avec précision la zone de chaque champ, car les seules valeurs de champ ne suffisent pas pour l’entraînement.
  • Pour délimiter la zone d’un champ, ne cliquez pas sur sa valeur, mais délimitez plutôt l’intégralité de l’espace réservé.
  • Si un champ ne contient aucune valeur, délimitez l’espace réservé vide.
  • Si un champ est composé de plusieurs parties, maintenez la touche Maj enfoncée pour ajouter les parties. Notez que toutes les parties doivent se trouver sur la même page.
  • Si un formulaire fixe contient un tableau, délimitez toutes les lignes, y compris celles qui sont vides.
  • Si un champ est ajouté après qu’une partie de l’annotation a déjà été réalisée, ce nouveau champ doit être annoté sur tous les documents de l’ensemble d’entraînement. Passez en revue tous vos documents et annotez le nouveau champ sur tous les documents où il apparaît.

Documents semi-structurés

Les documents semi-structurés contiennent généralement les mêmes types d’informations ou des types similaires, mais l’emplacement, la taille et le nombre de champs peuvent varier d’un document à l’autre. Parmi les exemples de documents semi-structurés figurent les factures, les ordres de paiement et les bordereaux. Suivez les consignes ci-dessous lors de l’annotation des documents semi-structurés.
  • Veillez à définir avec précision la région de chaque champ, car les seules valeurs des champs ne suffisent pas pour l’entraînement.
  • Pour délimiter la région d’un champ, cliquez sur sa valeur (c’est‑à‑dire le ou les mots qu’il contient) ; la région sera créée automatiquement.
  • Si un champ ne contient aucune valeur, ne créez pas de région pour ce champ.
  • Ne marquez pas des parties de mots, car le programme n’apprend qu’à partir de mots entiers.
  • Si un champ est composé de plusieurs parties, maintenez la touche Shift enfoncée pour ajouter les parties. Notez que toutes les parties doivent se trouver sur la même page.
  • Si vous avez une structure répétitive, analysez d’abord vos documents et créez soit un tableau, soit un groupe répétitif. Si vos documents contiennent des tableaux avec un en-tête commun et des valeurs qui n’ont aucun mot-clé à proximité, créez un tableau. Si vos données sont moins structurées et comportent des mots-clés placés à côté des valeurs, créez un groupe avec l’option Allow multiple items. Si les données sont organisées différemment selon les documents, sélectionnez l’option qui convient le mieux à la majorité des documents.
  • Lors de l’annotation d’un tableau, marquez la première ligne, puis cliquez sur Continue table from this row, en vous assurant que l’ensemble du tableau a été correctement annoté. Pour marquer les cellules de la première ligne, cliquez sur ses cellules une à une ; les colonnes correspondantes seront créées automatiquement. Poursuivez jusqu’à ce que tout le tableau ait été marqué.
Si les tableaux sont volumineux et que les pages du document se ressemblent, vous pouvez supprimer les pages similaires et annoter la première et la dernière page ainsi que certaines pages intermédiaires.
  • N’indiquez pas au programme de rechercher des champs à l’intérieur de la région d’un autre champ, qu’il s’agisse d’un champ individuel (par exemple une adresse) ou d’une cellule de tableau (par exemple « Description »). Si vous devez extraire des données d’un grand fragment de texte, utilisez une séquence d’activités. Commencez par une activité conçue pour extraire des données à partir de documents semi-structurés et entraînez-la à trouver la région souhaitée. Ensuite, pour extraire des champs spécifiques de cette région, utilisez une activité conçue pour l’extraction de données à partir de texte (NLP) ou implémentez vos propres règles de script.
  • Si un champ est ajouté après qu’une partie de l’annotation a déjà été effectuée, ce nouveau champ doit être annoté sur tous les documents de l’ensemble d’entraînement. Passez en revue tous vos documents et annotez le nouveau champ sur tous ceux où il apparaît.

Documents non structurés

Les documents non structurés contiennent des informations qui ne sont structurées d’aucune manière. Exemples de documents non structurés : contrats, articles scientifiques et courriels. Suivez les consignes ci-dessous lors de l’annotation des documents non structurés.
  • Veillez à définir avec précision la région de chaque champ, car les seules valeurs de champ ne suffisent pas pour l’entraînement.
  • Lors de l’annotation des segments (comme les champs entraînés dans l’activité Segmentation), les régions doivent inclure un ou plusieurs paragraphes entiers. Un segment ne peut pas ne contenir qu’une partie de paragraphe.
  • Pour délimiter la région d’un champ, cliquez sur sa valeur (par exemple, le ou les mots qu’il contient) et la région sera créée automatiquement.
  • Si un champ ne contient aucune valeur, ne créez pas de région pour ce champ.
  • Ne marquez pas des parties de mots, car le programme n’apprend qu’à partir de mots entiers.
Si un mot est suivi d’un signe de ponctuation (par exemple, « … et Mary Jones, (“Borrower…”) »), ajustez la région afin qu’elle n’englobe pas le signe de ponctuation.
  • Parfois, la région d’un champ peut déborder sur la page suivante (par exemple, une clause dans un contrat). Dans ce cas, annotez une partie du champ sur la première page, puis continuez l’annotation sur la page suivante en maintenant la touche Maj enfoncée.
  • Lors de la création d’une région pour un champ à l’intérieur de la région d’un autre champ (par exemple, pour délimiter un champ à l’intérieur d’un segment), sélectionnez le champ souhaité et commencez simplement à l’annoter à l’intérieur de la région de l’autre champ. Cela ne sélectionnera pas la région existante mais créera une nouvelle région pour le champ sélectionné.