Conseil : Pour des consignes sur l’annotation de documents non structurés, consultez le guide Advanced Designer.
Documents structurés
- Veillez à spécifier avec précision la zone de chaque champ, car les valeurs de champ seules ne suffisent pas pour l’entraînement.
- Pour délimiter la zone d’un champ, ne cliquez pas sur sa valeur, mais marquez plutôt l’intégralité de l’espace réservé.
- Si un champ ne contient aucune valeur, marquez l’espace réservé vide.
- Si un champ est composé de plusieurs parties, maintenez la touche Maj enfoncée pour ajouter les parties. Notez que toutes les parties doivent se trouver sur la même Page.
- Si un formulaire fixe contient un tableau, marquez toutes les lignes, y compris celles qui sont vides.
- Si un champ est ajouté après que des annotations ont déjà été effectuées, ce nouveau champ doit être annoté sur tous les documents du jeu d’entraînement. Passez en revue tous vos documents et annotez le nouveau champ sur tous les documents où il apparaît.
Documents semi‑structurés
- Veillez à définir avec précision la zone de chaque champ, car les seules valeurs de champ ne suffisent pas à l’apprentissage.
- Pour délimiter la zone d’un champ, cliquez sur sa valeur (c’est‑à‑dire le ou les mots qu’elle contient) ; la zone sera créée automatiquement.
- Si un champ ne contient aucune valeur, ne créez pas de zone pour ce champ.
- Ne délimitez pas des parties de mots, car le programme n’apprend qu’à partir de mots entiers.
- Si un champ se compose de plusieurs parties, maintenez la touche Shift enfoncée pour ajouter les parties. Notez que toutes les parties doivent se trouver sur la même page.
- Si vous avez une structure répétitive, analysez d’abord vos documents et créez soit un tableau, soit un groupe répétitif. Si vos documents contiennent des tableaux avec un en‑tête commun et des valeurs sans mots‑clés adjacents, créez un tableau. Si vos données sont moins structurées et que des mots‑clés se trouvent à côté des valeurs, créez un groupe avec l’option Allow multiple items. Si l’organisation des données varie selon les documents, choisissez l’option qui convient à la majorité.
- Lors de l’étiquetage d’un tableau, marquez la première ligne, puis cliquez sur Continue table from this row, en vous assurant que l’intégralité du tableau a été correctement étiquetée. Pour délimiter les cellules de la première ligne, cliquez sur ses cellules une par une ; les colonnes correspondantes seront créées automatiquement. Procédez jusqu’à ce que tout le tableau ait été délimité.
Conseil : Si les tableaux sont volumineux et que les pages du document se ressemblent, vous pouvez supprimer les pages similaires et étiqueter la première et la dernière page ainsi que quelques pages intermédiaires.
- N’indiquez pas au programme de rechercher des champs à l’intérieur de la zone d’un autre champ, qu’il s’agisse d’un champ individuel (comme une adresse) ou d’une cellule de tableau (comme « Description »). Si vous devez extraire des données à partir d’un long fragment de texte, utilisez l’Advanced Designer.
- Si un champ est ajouté après que certains étiquetages ont déjà été effectués, ce nouveau champ doit être étiqueté sur tous les documents de l’ensemble d’apprentissage. Veuillez revoir tous vos documents et étiqueter le nouveau champ sur tous les documents où il apparaît.
