Passer au contenu principal

Documentation Index

Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt

Use this file to discover all available pages before exploring further.

Une fois l’activité allemande configurée, configurez la deuxième activité Extraction Rules pour les arrêts maladie néerlandais et belges. Les arrêts maladie néerlandais et belges ont une structure différente de celle des documents allemands et varient fortement au sein de cette classe ; Fast Learning n’est donc pas adapté ici. Certains champs sont propres à ces documents — vous les ajouterez au formulaire de données au fur et à mesure que vous configurerez l’activité. Commencez par les champs présents sur tous les documents, puis complétez le formulaire avec les nouveaux.
Passez d’une activité à l’autre sans fermer l’Éditeur d’activité en cliquant sur le nom de l’activité actuelle à côté du nom de la compétence, puis en sélectionnant “Sick Note BE-NL” dans la liste déroulante. Sélectionnez ensuite le premier document de l’ensemble.

Extraction de la date de délivrance

Les dates de ces documents peuvent être facilement extraites à l’aide de l’élément Date. Cette fois, nous allons donc utiliser l’élément de recherche créé automatiquement pour ce champ.
1

Ajouter le champ Date

  1. Ouvrez la boîte de dialogue Gérer les champs dans l’onglet fields et sélectionnez un champ “Date” à utiliser dans cette activité. Cliquez sur Save.
  2. Accédez à l’onglet Search Elements. Un élément de recherche de type Date a été créé pour le champ “Date” et mappé automatiquement.
2

Créer le groupe IssueDateGroup avec le libellé kwDate

  1. Créez un élément de recherche Group nommé “IssueDateGroup” et rendez-le facultatif.
  2. Ajoutez un élément Static Text nommé “kwDate” à l’intérieur du groupe — il permet de repérer le libellé qui aide à localiser la date proprement dite.
  3. Comme cette classe de documents contient des documents en néerlandais ou en français, saisissez les différentes valeurs du libellé sur des lignes séparées dans la boîte de dialogue Text to find : “Date” sur la première ligne et “Datum” sur la deuxième.
  4. Désactivez l’option Search for parts of words.
3

Ajouter l’élément Date au groupe

Faites glisser l’élément de recherche “Date” dans le groupe et placez-le sous l’élément “kwDate”.
4

Configurer la zone de recherche de l’élément Date

  1. Supprimez la relation Nearest to ajoutée automatiquement lors de la création de l’élément.
  2. Sélectionnez l’élément “kwDate” comme élément le plus proche de celui recherché.
  3. La date peut se trouver à droite du mot-clé ou en dessous. Définissez la zone de recherche sous l’élément “kwDate”.
  4. La zone de recherche doit également inclure la ligne sur laquelle se trouve le mot-clé. Cliquez sur l’icône de limite inférieure à droite du nom de l’élément et sélectionnez Top Boundary of Region. Les lignes pouvant être irrégulières, définissez la valeur Below sur -10 afin d’étendre légèrement la zone de recherche au-dessus de la ligne.
5

Vérifier que la date est trouvée

Cliquez sur Match pour vous assurer que la date est correctement localisée.La structure de l’élément de recherche doit ressembler à ceci :
Hiérarchie des éléments de recherche pour la date de délivrance belgo-néerlandaise : IssueDateGroup contenant le mot-clé kwDate et l’élément Date

Extraction des dates d’arrêt maladie

Nous allons extraire ces dates à l’aide d’éléments Key value. L’élément Key value permet de rechercher à la fois un libellé de texte statique et la valeur. Cependant, il ne permet pas une trop grande variation de l’emplacement et des propriétés de la valeur. Dans ces documents, les dates d’arrêt maladie sont formatées de sorte que chaque composant de la date se trouve dans une cellule distincte d’un tableau. Les cellules du tableau peuvent se trouver à des emplacements non standard dans chaque document, mais leur position relative reste toujours la même. Nous ne pouvons pas compter sur des limites de cellules très nettes, mais nous utiliserons tout de même l’élément cellule de tableau, car il permet des bordures floues et sera pratique si nous décidons d’entraîner l’activité sur davantage de documents. Nous utiliserons donc l’élément Group pour organiser la hiérarchie des éléments de recherche.
Vous pouvez utiliser l’élément cellule de tableau non seulement pour les champs situés à l’intérieur des tableaux du document. Il peut également être utile si vous devez extraire des données d’un formulaire où le contenu se trouve dans des cases similaires ou dans des structures de type tableau. Si ces cases ont des lignes de séparation nettes, l’élément cellule de tableau se révélera très efficace.
1

Ajouter les champs Start Date et End Date

Ouvrez la boîte de dialogue Gérer les champs et ajoutez les champs suivants à l’activité en cours :
  • Start Date
  • End Date
Cliquez sur Save.
2

Créer le StartDateGroup avec des éléments cellule de tableau

Accédez à l’onglet Search Elements et créez l’élément Group pour l’extraction de la date de début. Définissez les paramètres suivants pour les éléments inclus dans le groupe :
ParameterValue
Group search element:
NameStartDateGroup
Static Text search element:
NamekwStartDate
Text to findVanaf / From, A partir du, Van
Search for parts of wordsDisabled
cellule de tableau search elements:
NameStartDateDay
Search patternNumber
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaBelow the “kwStartDate” element, nearest to “kwStartDate”
cellule de tableau search element:
NameStartDateMonth
Search patternNumber
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaBelow the “kwStartDate” element, right of “StartDateDay”, nearest to “StartDateDay”
cellule de tableau search element:
NameStartDateYear
Search patternNumber
Character count{2, 2, 4, 4}
Search for parts of wordsDisabled
Search areaBelow the “kwStartDate” element, right of “StartDateMonth”, nearest to “StartDateMonth”
L’élément cellule de tableau renvoie le texte de la cellule tel quel. Dans ce cas, le motif de recherche contient un Number qui ne reconnaît que les chiffres ; le texte renvoyé par l’élément sera donc un nombre.
3

Créer une copie du EndDateGroup

  1. Créez une copie de l’élément “StartDateGroup” et renommez-la en “EndDateGroup”.
  2. Renommez les sous-éléments du groupe : “kwStartDate” en “kwEndDate”, “StartDateDay” en “EndDateDay”, “StartDateMonth” en “EndDateMonth”, “StartDateYear” en “EndDateYear”.
  3. Modifiez le texte à rechercher de l’élément “kwEndDate” en “Tot en met / Till and incl., Jusqu’ au, Tot en met”.
  4. Spécifiez la zone de recherche pour l’élément “EndDateDay”. Il doit se trouver sous l’élément “kwEndDate” et être le plus proche de celui-ci. Supprimez les autres relations.
4

Ajouter des champs Data Composition pour les dates

  1. Ouvrez la boîte de dialogue Gérer les champs et ajoutez un Data Composition Field appelé “Start Date Composed”. Associez les éléments suivants aux champs :
    • “StartDateDay” à Day
    • “StartDateMonth” à Month
    • “StartDateYear” à Year
    Cliquez sur Save.
  2. Créez un Data Composition Field appelé “End Date Composed”. Associez les éléments suivants aux champs :
    • “EndDateDay” à Day
    • “EndDateMonth” à Month
    • “EndDateYear” à Year
    Cliquez sur Save.
  3. Associez les champs de composition de données “Start Date Composed” et “End Date Composed” aux champs “Start Date” et “End Date”.
La structure des éléments de recherche doit ressembler à ceci :
Hiérarchie des éléments de recherche pour les dates d’arrêt maladie belges néerlandaises : StartDateGroup et EndDateGroup, contenant chacun un mot-clé Static Text et trois éléments cellule de tableau pour le jour, le mois et l’année

Extraction du type d’arrêt maladie

Nous allons extraire le type d’arrêt maladie à l’aide d’une coche, exactement comme nous l’avons fait pour les documents allemands.
1

Activer les coches Primary et Secondary

Ouvrez la boîte de dialogue Gérer les champs dans l’onglet fields et activez le groupe de coches “Type of Sick Note”. Activez les coches “Primary” et “Secondary” dans le groupe pour qu’elles soient utilisées dans l’activité en cours. Cliquez sur Save.
2

Créer TypeOfSickNoteGroup et le libellé PrimaryGroup

Construisez une structure similaire à celle créée pour les documents allemands, mais gardez à l’esprit que dans les documents néerlandais et belges, le libellé vient en premier — l’ordre des éléments enfants pour ces groupes a de l’importance.
  1. Créez un élément Group appelé “TypeOfSickNoteGroup”.
  2. Créez une copie de ce groupe, renommez-la en “PrimaryGroup” et placez-la à l’intérieur de “TypeOfSickNoteGroup”.
  3. Ajoutez un élément Static Text appelé “kwCheckmark” au groupe “PrimaryGroup”.
  4. Définissez le texte à rechercher sur “eerste / Primary, première, primair”.
Dans ces documents, le texte près de la coche se trouve à gauche de la coche ; la zone de recherche se place donc à gauche, et non à droite.
3

Configurer les éléments Checkmark, XMark et CheckmarkRegion

Configurez les éléments restants à l’intérieur de “PrimaryGroup” conformément à ce tableau :
ParameterValue
Static Text search element:
NameCheckmark
Text to findX
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaRight of “kwCheckmark”, nearest to “kwCheckmark”
Static Text search element:
NameXMark
Text to findX
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaBelow the “kwCheckmark” top boundary, Below value = -15, Left of “kwCheckmark”, Above the “kwCheckmark” bottom boundary, Above value = -15, Nearest to “kwCheckmark”
Under what conditionsDo not find element if “Checkmark” is found
Region search element:
NameCheckmarkRegion
Search Conditions section of the Code Editorif Checkmark.IsFound then RSA: Checkmark.Rect; else if XMark.IsFound then RSA: XMark.Rect; else DontFind;
4

Créer SecondaryGroup et RelapseGroup

  1. Créez une copie de “PrimaryGroup” et renommez-la en “SecondaryGroup”. Modifiez le texte à rechercher de son élément “kwCheckmark” en “prolongation”, “verlenging”.
  2. Les arrêts maladie néerlandais et belges sont divisés en trois types — « rechute » étant un type supplémentaire par rapport aux arrêts maladie allemands. Créez une autre copie de “PrimaryGroup” et renommez-la en “RelapseGroup”.
  3. Modifiez le texte à rechercher de l’élément “kwCheckmark” de RelapseGroup en “Herval” et activez l’option Respecter la casse pour exclure les mots apparaissant au milieu d’une phrase.
Voici à quoi doit ressembler la structure des éléments de recherche :
Hiérarchie des éléments de recherche pour le type d’arrêt maladie belgo-néerlandais : TypeOfSickNoteGroup contenant PrimaryGroup, SecondaryGroup et RelapseGroup, chacun avec les éléments kwCheckmark, Checkmark, XMark et CheckmarkRegion
5

Ajouter la coche Relapse et associer les champs

  1. Ouvrez la fenêtre Gérer les champs et ajoutez une coche “Relapse” au groupe de coches “Type of Sick Note”. Activez toutes les coches du groupe pour qu’elles soient utilisées dans l’activité en cours et cliquez sur Save.
  2. Associez les coches aux éléments Region correspondants et supprimez les éléments qui ont été créés automatiquement lors de l’activation des champs.

Test de l’activité

Nous avons configuré tous les éléments de recherche nécessaires et les champs. Sélectionnez tous les documents, cliquez sur Associer, puis ouvrez l’onglet Champs pour examiner les régions de champ sur les images du document. Gardez à l’esprit qu’une région n’est affectée à un champ que si elle appartient à l’hypothèse du meilleur chemin. Une fois que vous êtes satisfait des résultats, cliquez sur l’icône de copie au-dessus de l’image du document pour copier l’étiquetage prédit vers l’étiquetage de référence.

Prochaines étapes

Étape 9. Configurer les règles métier

Ajoutez des règles métier pour valider et normaliser les valeurs des champs extraits.

Vue d’ensemble du tutoriel

Retour à l’introduction du tutoriel.