Vai al contenuto principale
Abbiamo terminato la configurazione dell’attività “Sick Note DE” e siamo pronti a creare il secondo set di Regole di Estrazione per l’altra classe di certificati di malattia. La struttura dei certificati di malattia olandesi e belgi è piuttosto diversa da quella dei documenti tedeschi. Esistono molte varianti all’interno della classe, quindi questa volta non possiamo usare l’attività Fast Learning per estrarre alcun field. Questi documenti contengono alcune informazioni aggiuntive che non sono disponibili nei certificati di malattia tedeschi, quindi aggiungeremo anche alcuni nuovi field durante la configurazione dell’attività. Inizieremo estraendo i dati disponibili su tutti i documenti e poi aggiungeremo alcuni nuovi field al modulo dati. Puoi passare a un’altra attività senza chiudere l’Activity Editor. Fai clic sul nome dell’attività corrente accanto al nome della skill e seleziona “Sick Note BE-NL” nell’elenco a discesa. Seleziona il primo documento del set.

Estrazione della data di emissione

Le date in questi documenti possono essere facilmente estratte usando l’elemento Date, quindi questa volta useremo l’elemento di ricerca creato automaticamente per questo field.
  1. Apri la finestra di dialogo Manage Fields nella scheda Fields e seleziona un field “Date” da utilizzare in questa attività. Fai clic su Save.
  2. Vai alla scheda Search Elements. Vedrai un elemento di ricerca di tipo Date creato per il field “Date”. È mappato automaticamente al field.
  3. Crea un elemento di ricerca Group chiamato “IssueDateGroup”. Rendi l’elemento facoltativo.
  4. Aggiungi un elemento Static Text chiamato “kwDate” per trovare l’etichetta che ci aiuterà a individuare la data effettiva.
  5. Questa classe di documenti contiene documenti in lingua olandese o francese, quindi ci sono diverse opzioni per il testo dell’etichetta. Puoi inserire ciascuna opzione su una nuova riga nella finestra di dialogo Text to find. Inserisci il testo “Date” sulla prima riga e “Datum” sulla seconda riga.
  6. Disabilita l’opzione Search for parts of words.
  7. Trascina l’elemento di ricerca “Date” nel gruppo e posizionalo sotto l’elemento “kwDate”.
  8. Specifica l’area di ricerca per l’elemento “Date”. a. Elimina la relazione Nearest to che è stata aggiunta automaticamente alla creazione dell’elemento. b. Seleziona l’elemento “kwDate” come quello più vicino all’elemento che stiamo cercando. c. La data può trovarsi a destra della parola chiave o sotto di essa. Specifica l’area di ricerca sotto l’elemento “kwDate”. d. L’area di ricerca deve includere anche la riga su cui si trova la parola chiave. Fai clic sull’icona del bordo inferiore a destra del nome dell’elemento e seleziona Top Boundary of Region. Le righe possono essere irregolari, quindi imposta il valore Below a -10 per estendere l’area di ricerca leggermente al di sopra della riga.
  9. Fai clic su Match per verificare che la data sia individuata correttamente.
Ecco come dovrebbe apparire la struttura dell’elemento di ricerca: AD_Tutorial_BE_IssueDate_Structure

Estrazione delle date di malattia

Estrarremo queste date utilizzando elementi Key value. L’elemento Key value consente di cercare sia un’etichetta di testo statica sia il valore. Tuttavia, non consente molta variazione nell’ubicazione e nelle proprietà del valore. In questi documenti, le date di malattia sono formattate in modo che ciascun componente della data si trovi in una cella separata di una tabella. Le celle della tabella possono trovarsi in posizioni non standard in ciascun documento, ma la posizione relativa delle celle è sempre la stessa. Non possiamo fare affidamento su bordi di cella ben definiti, ma useremo comunque l’elemento Table Cell perché consente bordi sfumati ed è comodo se decidiamo di addestrare l’attività su più documenti. Useremo quindi l’elemento Group per organizzare la gerarchia degli elementi di ricerca. Nota: È possibile utilizzare l’elemento Table Cell non solo per i field all’interno delle tabelle del documento. Può anche essere utile se è necessario estrarre dati da un modulo in cui il contenuto si trova in riquadri simili o in strutture simili a tabelle. Se questi riquadri hanno linee divisorie chiare, l’elemento Table Cell risulterà molto efficace.
  1. Aprire la finestra di dialogo Manage Fields e aggiungere i seguenti field all’attività corrente:
    • Start Date
    • End Date
    Fare clic su Save.
  2. Andare alla scheda Search Elements e creare l’elemento Group per l’estrazione della data di inizio. Impostare i seguenti parametri per gli elementi inclusi nel gruppo:
ParameterValue
Group search element:
NameStartDateGroup
Static Text search element:
NamekwStartDate
Text to findVanaf / From, A partir du, Van
Search for parts of wordsDisabled
Table Cell search elements:
NameStartDateDay
Search patternNumber
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaBelow the “kwStartDate” element, nearest to “kwStartDate”
Table Cell search element:
NameStartDateMonth
Search patternNumber
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaBelow the “kwStartDate” element, right of “StartDateDay”, nearest to “StartDateDay”
Table Cell search element:
NameStartDateYear
Search patternNumber
Character count{2, 2, 4, 4}
Search for parts of wordsDisabled
Search areaBelow the “kwStartDate” element, right of “StartDateMonth”, nearest to “StartDateMonth”
Nota: L’elemento Table Cell restituisce il testo della cella così com’è. In questo caso, il modello di ricerca contiene un Number che riconosce solo le cifre, quindi il testo restituito dall’elemento sarà un numero.
  1. Creare una copia dell’elemento “StartDateGroup” e rinominarlo in “EndDateGroup”.
  2. Rinominare i sottoelementi del gruppo: da “kwStartDate” a “kwEndDate”, da “StartDateDay” a “EndDateDay”, da “StartDateMonth” a “EndDateMonth”, da “StartDateYear” a “EndDateYear”.
  3. Modificare il testo da cercare dell’elemento “kwEndDate” in “Tot en met / Till and incl., Jusqu’ au, Tot en met”.
  4. Specificare l’area di ricerca per l’elemento “EndDateDay”. Dovrebbe trovarsi sotto l’elemento “kwEndDate” e il più vicino possibile ad esso. Eliminare le altre relazioni.
  5. Aprire la finestra di dialogo Manage Fields e aggiungere un Data Composition Field chiamato “Start Date Composed”. Mappare i seguenti elementi ai field:
    • “StartDateDay” a Day
    • “StartDateMonth” a Month
    • “StartDateYear” a Year
    Fare clic su Save.
  6. Creare un Data Composition Field chiamato “End Date Composed”. Mappare i seguenti elementi ai field:
    • “EndDateDay” a Day
    • “EndDateMonth” a Month
    • “EndDateYear” a Year
    Fare clic su Save.
  7. Mappare i data composition field “Start Date Composed” e “End Date Composed” ai field “Start Date” e “End Date”.
Ecco come dovrebbe apparire la struttura dell’elemento di ricerca: AD_Tutorial_BE_Dates_Structure

Estrazione del tipo di certificato medico

Estraiamo il tipo di certificato medico usando una casella di spunta nello stesso modo in cui abbiamo fatto per i documenti tedeschi.
  1. Apri la finestra di dialogo Manage Fields nella scheda Fields e abilita il gruppo di caselle di spunta “Type of Sick Note”. Abilita le caselle di spunta “Primary” e “Secondary” nel gruppo per l’uso nell’attività corrente. Fai clic su Save.
  2. Crea una struttura simile a quella realizzata per i documenti tedeschi, tenendo presente che nei documenti olandesi e belgi l’etichetta (il testo vicino alla casella di spunta) viene prima. L’ordine degli elementi figli per tali gruppi è importante. a. Crea un elemento Group chiamato “TypeOfSickNoteGroup”. b. Crea una copia di questo gruppo e rinominala “PrimaryGroup”. Posizionala all’interno di “TypeOfSickNoteGroup”. c. Aggiungi un elemento Static Text chiamato “kwCheckmark” al gruppo “PrimaryGroup”. d. Imposta il testo da trovare su “eerste / Primary, première, primair”.
Nota: In questi documenti, il testo vicino alla casella di spunta si trova a sinistra della casella stessa, quindi impostiamo l’area di ricerca a sinistra, non a destra. Configura il resto degli elementi in base alla tabella seguente:
ParameterValue
Static Text search element:
NameCheckmark
Text to findX
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaRight of “kwCheckmark”, nearest to “kwCheckmark”
Static Text search element:
NameXMark
Text to findX
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaBelow the “kwCheckmark” top boundary, Below value = -15, Left of “kwCheckmark”, Above the “kwCheckmark” bottom boundary, Above value = -15, Nearest to “kwCheckmark”
Under what conditionsDo not find element if “Checkmark” is found
Region search element:
NameCheckmarkRegion
Search Conditions section of the Code Editorif Checkmark.IsFound then RSA: Checkmark.Rect; else if XMark.IsFound then RSA: XMark.Rect; else DontFind;
e. Crea una copia di “PrimaryGroup” e rinominala “SecondaryGroup”. Modifica il testo da trovare del suo elemento “kwCheckmark” in “prolongation”, “verlenging”. f. I certificati medici tedeschi erano suddivisi in due tipi. Al contrario, quelli olandesi e belgi sono suddivisi in tre tipi (“relapse” è un tipo aggiuntivo). Pertanto, crea un’altra copia del gruppo “PrimaryGroup” e rinominala “RelapseGroup”. g. Modifica il testo da trovare del suo elemento “kwCheckmark” in “Herval” e abilita l’opzione Match case per escludere parole che compaiono nel mezzo di una frase. Ecco come dovrebbe apparire la struttura degli elementi di ricerca: AD_Tutorial_BE_TypeOfSickNote_Structure
  1. Apri la finestra Manage Fields e aggiungi una casella di spunta “Relapse” al gruppo di caselle di spunta “Type of Sick Note”. Abilita tutte le caselle di spunta del gruppo per l’uso nell’attività corrente e fai clic su Save.
  2. Mappa le caselle di spunta ai corrispondenti elementi Region ed elimina gli elementi creati automaticamente quando sono stati abilitati i field.

Test dell’attività

Abbiamo configurato tutti gli elementi di ricerca e i field necessari. Seleziona tutti i documenti, fai clic su Match e passa alla scheda Fields per esaminare le regioni dei field sulle immagini del documento. Tieni presente che una regione verrà associata a un field solo se appartiene all’ipotesi del percorso migliore. Quando sei soddisfatto dei risultati, fai clic sull’icona di copia sopra l’immagine del documento per copiare l’etichettatura prevista in quella di riferimento.