Passer au contenu principal
Vous devez annoter un certain nombre de documents afin d’entraîner et de tester une compétence. Les consignes ci‑dessous vous aideront à annoter correctement vos documents.
Conseil : Pour des consignes sur l’annotation de documents non structurés, consultez le guide Advanced Designer.

Documents structurés

Les documents structurés contiennent toujours exactement le même type d’informations aux mêmes emplacements. Un exemple de documents structurés est celui des formulaires préformatés. Vous n’aurez besoin d’annoter que quelques documents d’exemple pour l’entraînement, car leur mise en page ne varie pas. Utilisez les consignes suivantes lors de l’annotation des documents structurés :
  • Veillez à définir avec précision la région de chaque champ, car les valeurs de champ seules ne suffisent pas pour l’entraînement.
  • Pour délimiter la région d’un champ, ne cliquez pas sur sa valeur, mais encadrez l’intégralité de l’espace réservé.
  • Si un champ ne contient aucune valeur, délimitez l’espace réservé vide.
  • Si un champ se compose de plusieurs parties, maintenez la touche Maj enfoncée pour ajouter les parties. Veuillez noter que toutes les parties doivent se trouver sur la même page.
  • Si un formulaire fixe contient un tableau, délimitez toutes les lignes, y compris les vides.
  • Si un champ est ajouté après qu’un certain étiquetage a déjà été effectué, ce nouveau champ doit être étiqueté sur tous les documents de l’ensemble d’entraînement. Veuillez passer en revue tous vos documents et étiqueter le nouveau champ sur tous les documents où il apparaît.

Documents semi-structurés

Les documents semi-structurés contiennent généralement les mêmes types d’informations, mais l’emplacement, la taille et le nombre de champs peuvent varier d’un document à l’autre. Parmi les exemples de documents semi-structurés figurent les factures de services, les ordres de paiement et les factures. Utilisez les directives suivantes pour l’étiquetage des documents semi-structurés :
  • Veillez à spécifier avec précision la zone de chaque champ, car les valeurs de champ seules ne suffisent pas pour l’entraînement.
  • Pour délimiter la zone d’un champ, cliquez sur sa valeur (c.-à-d. le ou les mots qu’elle contient) : la zone sera créée automatiquement.
  • Si un champ ne contient aucune valeur, ne créez pas de zone pour ce champ.
  • Ne délimitez pas des parties de mots, car le programme n’apprend qu’à partir de mots entiers.
  • Si un champ se compose de plusieurs parties, maintenez la touche Maj enfoncée pour ajouter les parties. Notez que toutes les parties doivent se trouver sur la même page.
  • Si vous avez une structure répétitive, analysez d’abord vos documents et créez soit un tableau, soit un groupe répétitif. Si vos documents contiennent des tableaux avec un en-tête commun et des valeurs sans mots-clés adjacents, créez un tableau. Si vos données sont moins structurées et comportent des mots-clés placés à côté des valeurs, créez un groupe avec l’option Autoriser plusieurs éléments. Si les données sont organisées différemment selon les documents, sélectionnez l’option qui convient le mieux à la majorité des documents.
  • Lors de l’étiquetage d’un tableau, marquez la première ligne, puis cliquez sur Continuer le tableau à partir de cette ligne, en vous assurant que l’ensemble du tableau a été correctement étiqueté. Pour délimiter les cellules de la première ligne, cliquez sur ses cellules une par une : les colonnes correspondantes seront créées automatiquement. Procédez jusqu’à ce que tout le tableau soit marqué.
Conseil : Si les tableaux sont volumineux et que les pages du document se ressemblent, vous pouvez supprimer les pages similaires et étiqueter la première et la dernière page ainsi que certaines pages intermédiaires.
  • N’indiquez pas au programme de rechercher des champs à l’intérieur de la zone d’un autre champ, qu’il s’agisse d’un champ individuel (comme une adresse) ou d’une cellule de tableau (comme « Description »). Si vous devez extraire des données à partir d’un large fragment de texte, utilisez l’Advanced Designer.
  • Si un champ est ajouté après qu’un certain étiquetage a déjà été effectué, ce nouveau champ doit être étiqueté dans tous les documents de l’ensemble d’entraînement. Veuillez passer en revue tous vos documents et étiqueter le nouveau champ dans tous les documents où il apparaît.