Passer au contenu principal
Nous avons terminé de configurer l’activité « Sick Note DE » et nous sommes prêts à créer le deuxième jeu de règles d’extraction pour l’autre classe d’arrêts maladie. La structure des arrêts maladie néerlandais et belges diffère sensiblement de celle des documents allemands. Il existe de nombreuses variantes au sein de cette classe, donc cette fois nous ne pouvons pas utiliser l’activité Fast Learning pour extraire des champs. Ces documents contiennent des informations supplémentaires qui ne figurent pas sur les arrêts maladie allemands ; nous ajouterons donc également de nouveaux champs lors de la configuration de l’activité. Nous commencerons par extraire les données présentes sur tous les documents, puis nous ajouterons de nouveaux champs au formulaire de données. Vous pouvez passer à une autre activité sans fermer l’Activity Editor. Cliquez sur le nom de l’activité en cours à côté du nom du Skill et sélectionnez « Sick Note BE-NL » dans la liste déroulante. Sélectionnez le premier document de l’ensemble.

Extraction de la date d’émission

Les dates dans ces documents peuvent être facilement extraites à l’aide de l’élément Date. Cette fois, nous allons donc utiliser l’élément de recherche créé automatiquement pour ce champ.
  1. Ouvrez la boîte de dialogue Manage Fields dans l’onglet Fields et sélectionnez un champ “Date” à utiliser dans cette activité. Cliquez sur Save.
  2. Accédez à l’onglet Search Elements. Vous verrez un élément de recherche de type Date créé pour le champ “Date”. Il est automatiquement associé au champ.
  3. Créez un élément de recherche Group nommé “IssueDateGroup”. Rendez l’élément facultatif.
  4. Ajoutez un élément Static Text nommé “kwDate” pour trouver le libellé qui nous aidera à localiser la date.
  5. Cette classe de documents contient des documents en néerlandais ou en français, il existe donc plusieurs options pour le texte du libellé. Vous pouvez saisir chaque option sur une nouvelle ligne dans la boîte de dialogue Text to find. Saisissez le texte “Date” sur la première ligne et “Datum” sur la deuxième ligne.
  6. Désactivez l’option Search for parts of words.
  7. Faites glisser et déposez l’élément de recherche “Date” dans le groupe et placez-le sous l’élément “kwDate”.
  8. Spécifiez la zone de recherche pour l’élément “Date”. a. Supprimez la relation Nearest to qui a été ajoutée automatiquement lors de la création de l’élément. b. Sélectionnez l’élément “kwDate” comme l’élément le plus proche de celui que nous recherchons. c. La date peut se trouver à droite du mot-clé ou en dessous. Spécifiez la zone de recherche sous l’élément “kwDate”. d. La zone de recherche doit également inclure la ligne sur laquelle se trouve le mot-clé. Cliquez sur l’icône de limite inférieure à droite du nom de l’élément et sélectionnez Top Boundary of Region. Les lignes pouvant être irrégulières, définissez la valeur Below sur -10 pour étendre légèrement la zone de recherche au-dessus de la ligne.
  9. Cliquez sur Match pour vérifier que la date est correctement localisée.
Voici à quoi la structure de l’élément de recherche devrait ressembler : AD_Tutorial_BE_IssueDate_Structure

Extraction des dates d’arrêt maladie

Nous allons extraire ces dates à l’aide d’éléments Key value. L’élément Key value permet de rechercher à la fois une étiquette de texte statique et la valeur. Cependant, il ne tolère pas de grandes variations de l’emplacement et des propriétés de la valeur. Dans ces documents, les dates d’arrêt maladie sont formatées de sorte que chaque composant de date se trouve dans une cellule distincte d’un tableau. Les cellules du tableau peuvent se situer à des emplacements non standards dans chaque document, mais leur position relative est toujours la même. Nous ne pouvons pas compter sur des limites de cellules très nettes, mais nous utiliserons tout de même l’élément Table Cell, car il gère les bordures floues et sera pratique si nous décidons d’entraîner l’activité sur davantage de documents. Nous utiliserons donc l’élément Group pour organiser la hiérarchie des éléments de recherche. Remarque : Vous pouvez utiliser l’élément Table Cell non seulement pour les champs situés à l’intérieur des tableaux d’un document. Il peut également être utile si vous devez extraire des données d’un formulaire où le contenu se trouve dans des cases similaires ou des structures de type tableau. Si ces cases possèdent des lignes de séparation nettes, l’élément Table Cell s’avérera très efficace.
  1. Ouvrez la boîte de dialogue Manage Fields et ajoutez les champs suivants à l’activité en cours :
    • Start Date
    • End Date
    Cliquez sur Save.
  2. Accédez à l’onglet Search Elements et créez l’élément Group pour l’extraction de la date de début. Définissez les paramètres suivants pour les éléments inclus dans le groupe :
ParameterValue
Group search element:
NameStartDateGroup
Static Text search element:
NamekwStartDate
Text to findVanaf / From, A partir du, Van
Search for parts of wordsDisabled
Table Cell search elements:
NameStartDateDay
Search patternNumber
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaBelow the “kwStartDate” element, nearest to “kwStartDate”
Table Cell search element:
NameStartDateMonth
Search patternNumber
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaBelow the “kwStartDate” element, right of “StartDateDay”, nearest to “StartDateDay”
Table Cell search element:
NameStartDateYear
Search patternNumber
Character count{2, 2, 4, 4}
Search for parts of wordsDisabled
Search areaBelow the “kwStartDate” element, right of “StartDateMonth”, nearest to “StartDateMonth”
Remarque : L’élément Table Cell renvoie le texte de la cellule tel quel. Dans ce cas, le motif de recherche contient un Number qui ne reconnaît que les chiffres, de sorte que le texte renvoyé par l’élément sera un nombre.
  1. Créez une copie de l’élément “StartDateGroup” et renommez-la “EndDateGroup”.
  2. Renommez les sous-éléments du groupe : “kwStartDate” en “kwEndDate”, “StartDateDay” en “EndDateDay”, “StartDateMonth” en “EndDateMonth”, “StartDateYear” en “EndDateYear”.
  3. Modifiez le texte à rechercher de l’élément “kwEndDate” en “Tot en met / Till and incl., Jusqu’ au, Tot en met”.
  4. Spécifiez la zone de recherche pour l’élément “EndDateDay”. Il doit être situé sous l’élément “kwEndDate” et au plus près de celui-ci. Supprimez les autres relations.
  5. Ouvrez la boîte de dialogue Manage Fields et ajoutez un Data Composition Field appelé “Start Date Composed”. Mappez les éléments suivants aux champs :
    • “StartDateDay” vers Day
    • “StartDateMonth” vers Month
    • “StartDateYear” vers Year
    Cliquez sur Save.
  6. Créez un Data Composition Field appelé “End Date Composed”. Mappez les éléments suivants aux champs :
    • “EndDateDay” vers Day
    • “EndDateMonth” vers Month
    • “EndDateYear” vers Year
    Cliquez sur Save.
  7. Mappez les champs de composition de données “Start Date Composed” et “End Date Composed” aux champs “Start Date” et “End Date”.
Voici à quoi doit ressembler la structure des éléments de recherche : AD_Tutorial_BE_Dates_Structure

Extraction du type d’arrêt maladie

Nous allons extraire le type d’arrêt maladie à l’aide d’une coche, exactement comme pour les documents allemands.
  1. Ouvrez la boîte de dialogue Manage Fields dans l’onglet Fields et activez le groupe de coches “Type of Sick Note”. Activez les coches “Primary” et “Secondary” dans le groupe pour qu’elles soient utilisées dans l’activité en cours. Cliquez sur Save.
  2. Construisez une structure similaire à celle des documents allemands, en gardant à l’esprit que dans les documents néerlandais et belges, l’étiquette (le texte à côté de la coche) vient en premier. L’ordre des éléments enfants de ces groupes est important. a. Créez un élément Group appelé “TypeOfSickNoteGroup”. b. Créez une copie de ce groupe et renommez-la “PrimaryGroup”. Placez-la à l’intérieur de “TypeOfSickNoteGroup”. c. Ajoutez un élément Static Text appelé “kwCheckmark” au groupe “PrimaryGroup”. d. Définissez le texte à rechercher sur “eerste / Primary, première, primair”.
Remarque : Dans ces documents, le texte à côté de la coche se trouve à gauche de celle-ci ; définissez donc la zone de recherche à gauche, et non à droite. Configurez le reste des éléments conformément au tableau ci-dessous :
ParameterValue
Static Text search element:
NameCheckmark
Text to findX
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaRight of “kwCheckmark”, nearest to “kwCheckmark”
Static Text search element:
NameXMark
Text to findX
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaBelow the “kwCheckmark” top boundary, Below value = -15, Left of “kwCheckmark”, Above the “kwCheckmark” bottom boundary, Above value = -15, Nearest to “kwCheckmark”
Under what conditionsDo not find element if “Checkmark” is found
Region search element:
NameCheckmarkRegion
Search Conditions section of the Code Editorif Checkmark.IsFound then RSA: Checkmark.Rect; else if XMark.IsFound then RSA: XMark.Rect; else DontFind;
e. Créez une copie de “PrimaryGroup” et renommez-la “SecondaryGroup”. Modifiez le texte à rechercher de son élément “kwCheckmark” en “prolongation”, “verlenging”. f. Les arrêts maladie allemands étaient répartis en deux types. À l’inverse, les arrêts maladie néerlandais et belges sont répartis en trois types (« rechute » est un type supplémentaire). Créez donc une autre copie du groupe “PrimaryGroup” et renommez-la “RelapseGroup”. g. Modifiez le texte à rechercher de son élément “kwCheckmark” en “Herval” et activez l’option Match case pour exclure les occurrences au milieu d’une phrase. Voici à quoi doit ressembler la structure des éléments de recherche : AD_Tutorial_BE_TypeOfSickNote_Structure
  1. Ouvrez la fenêtre Manage Fields et ajoutez une coche “Relapse” au groupe de coches “Type of Sick Note”. Activez toutes les coches du groupe pour qu’elles soient utilisées dans l’activité en cours et cliquez sur Save.
  2. Associez les coches aux éléments Region correspondants et supprimez les éléments créés automatiquement lors de l’activation des champs.

Test de l’activité

Nous avons configuré tous les éléments de recherche nécessaires et les champs. Sélectionnez tous les documents, cliquez sur Associer, puis ouvrez l’onglet Champs pour examiner les régions de champ sur les images du document. Gardez à l’esprit qu’une région n’est affectée à un champ que si elle appartient à l’hypothèse du meilleur chemin. Une fois que vous êtes satisfait des résultats, cliquez sur l’icône de copie au-dessus de l’image du document pour copier l’étiquetage prédit vers l’étiquetage de référence.