Saltar al contenido principal
Hemos terminado de configurar la actividad “Sick Note DE” y estamos listos para crear el segundo conjunto de Reglas de Extracción para la otra clase de partes de baja. La estructura de los partes de baja de Países Bajos y Bélgica es bastante diferente de la de los documentos alemanes. Hay muchas variantes dentro de la clase, por lo que esta vez no podemos usar la actividad Fast Learning para extraer ningún campo. Estos documentos contienen información adicional que no está disponible en los partes de baja alemanes, así que también añadiremos algunos campos nuevos al configurar la actividad. Comenzaremos extrayendo los datos disponibles en todos los documentos y luego añadiremos algunos campos nuevos al formulario de datos. Puedes cambiar a otra actividad sin cerrar el Activity Editor. Haz clic en el nombre de la actividad actual junto al nombre de la skill y selecciona “Sick Note BE-NL” en la lista desplegable. Selecciona el primer documento del conjunto.

Extracción de la fecha de emisión

Las fechas en estos documentos pueden extraerse fácilmente usando el elemento Date, así que esta vez utilizaremos el elemento de búsqueda que se creó automáticamente para este campo.
  1. Abra el cuadro de diálogo Manage Fields en la pestaña Fields y seleccione un campo “Date” que se utilizará en esta actividad. Haga clic en Save.
  2. Vaya a la pestaña Search Elements. Verá un elemento de búsqueda de tipo Date creado para el campo “Date”. Se asigna al campo automáticamente.
  3. Cree un elemento de búsqueda Group llamado “IssueDateGroup”. Marque el elemento como opcional.
  4. Agregue un elemento Static Text llamado “kwDate” para encontrar la etiqueta que nos ayudará a localizar la fecha propiamente dicha.
  5. Esta clase de documento contiene documentos en neerlandés o francés, por lo que hay varias opciones para el texto de la etiqueta. Puede introducir cada opción en una nueva línea en el cuadro de diálogo Text to find. Escriba el texto “Date” en la primera línea y “Datum” en la segunda.
  6. Desactive la opción Search for parts of words.
  7. Arrastre y suelte el elemento de búsqueda “Date” en el grupo y colóquelo debajo del elemento “kwDate”.
  8. Especifique el área de búsqueda para el elemento “Date”. a. Elimine la relación Nearest to que se agregó automáticamente cuando se creó el elemento. b. Seleccione el elemento “kwDate” como el más cercano al elemento que estamos buscando. c. La fecha puede estar a la derecha de la palabra clave o debajo de ella. Especifique el área de búsqueda debajo del elemento “kwDate”. d. El área de búsqueda también debe incluir la línea en la que se encuentra la palabra clave. Haga clic en el icono del límite inferior a la derecha del nombre del elemento y seleccione Top Boundary of Region. Las líneas pueden ser irregulares, por lo que establezca el valor Below en -10 para ampliar un poco el área de búsqueda por encima de la línea.
  9. Haga clic en Match para asegurarse de que la fecha se ubique correctamente.
Así es como debe verse la estructura del elemento de búsqueda: AD_Tutorial_BE_IssueDate_Structure

Extracción de las fechas de la baja

Extraeremos estas fechas utilizando elementos de Key value. El elemento Key value permite buscar tanto una etiqueta de texto estático como el valor. Sin embargo, no admite demasiada variación en la ubicación ni en las propiedades del valor. En estos documentos, las fechas de la baja están formateadas de modo que cada componente de la fecha esté en una celda independiente de una tabla. Las celdas de la tabla pueden ubicarse en lugares no estándar en cada documento, pero la posición relativa de las celdas siempre es la misma. No podemos confiar en que los límites de las celdas de la tabla estén muy claros, pero aun así usaremos el elemento Table Cell porque permite bordes difusos y será conveniente si decidimos entrenar la actividad con más documentos. Por lo tanto, usaremos el elemento Group para organizar la jerarquía de elementos de búsqueda. Nota: Puede usar el elemento Table Cell no solo para campos ubicados dentro de las tablas del documento. También puede ser útil si necesita extraer datos de un formulario donde el contenido esté ubicado en recuadros similares o en estructuras tipo tabla. Si estos recuadros tienen líneas divisorias claras, el elemento Table Cell resultará muy eficaz.
  1. Abra el cuadro de diálogo Manage Fields y agregue los siguientes campos a la actividad actual:
    • Start Date
    • End Date
    Haga clic en Save.
  2. Vaya a la pestaña Search Elements y cree el elemento Group para la extracción de la fecha de inicio. Establezca los siguientes parámetros para los elementos incluidos en el grupo:
ParameterValue
Group search element:
NameStartDateGroup
Static Text search element:
NamekwStartDate
Text to findVanaf / From, A partir du, Van
Search for parts of wordsDisabled
Table Cell search elements:
NameStartDateDay
Search patternNumber
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaBelow the “kwStartDate” element, nearest to “kwStartDate”
Table Cell search element:
NameStartDateMonth
Search patternNumber
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaBelow the “kwStartDate” element, right of “StartDateDay”, nearest to “StartDateDay”
Table Cell search element:
NameStartDateYear
Search patternNumber
Character count{2, 2, 4, 4}
Search for parts of wordsDisabled
Search areaBelow the “kwStartDate” element, right of “StartDateMonth”, nearest to “StartDateMonth”
Nota: El elemento Table Cell devuelve el texto de la celda tal cual. En este caso, el patrón de búsqueda contiene un Number que reconoce solo los dígitos, por lo que el texto devuelto por el elemento será un número.
  1. Cree una copia del elemento “StartDateGroup” y cámbiele el nombre a “EndDateGroup”.
  2. Cambie el nombre de los subelementos del grupo: de “kwStartDate” a “kwEndDate”, de “StartDateDay” a “EndDateDay”, de “StartDateMonth” a “EndDateMonth”, de “StartDateYear” a “EndDateYear”.
  3. Cambie el texto a buscar del elemento “kwEndDate” a “Tot en met / Till and incl., Jusqu’ au, Tot en met”.
  4. Especifique el área de búsqueda para el elemento “EndDateDay”. Debe ubicarse debajo del elemento “kwEndDate” y lo más cerca posible de él. Elimine las demás relaciones.
  5. Abra el cuadro de diálogo Manage Fields y agregue un Data Composition Field llamado “Start Date Composed”. Asigne los siguientes elementos a los campos:
    • “StartDateDay” a Day
    • “StartDateMonth” a Month
    • “StartDateYear” a Year
    Haga clic en Save.
  6. Cree un Data Composition Field llamado “End Date Composed”. Asigne los siguientes elementos a los campos:
    • “EndDateDay” a Day
    • “EndDateMonth” a Month
    • “EndDateYear” a Year
    Haga clic en Save.
  7. Asigne los campos de composición de datos “Start Date Composed” y “End Date Composed” a los campos “Start Date” y “End Date”.
Así es como debería verse la estructura del elemento de búsqueda: AD_Tutorial_BE_Dates_Structure

Extracción del tipo de parte de baja

Extraeremos el tipo de parte de baja mediante una casilla de verificación de la misma forma que hicimos con los documentos alemanes.
  1. Abra el cuadro de diálogo Manage Fields en la pestaña Fields y habilite el grupo de casillas “Type of Sick Note”. Habilite las casillas “Primary” y “Secondary” del grupo para usarlas en la actividad actual. Haga clic en Save.
  2. Cree una estructura similar a la de los documentos alemanes, pero tenga en cuenta que en los documentos neerlandeses y belgas la etiqueta (el texto junto a la casilla) va primero. El orden de los elementos secundarios en estos grupos sí importa. a. Cree un elemento Group llamado “TypeOfSickNoteGroup”. b. Cree una copia de este grupo y renómbrelo a “PrimaryGroup”. Colóquelo dentro de “TypeOfSickNoteGroup”. c. Agregue un elemento Static Text llamado “kwCheckmark” al grupo “PrimaryGroup”. d. Configure el texto a buscar como “eerste / Primary, première, primair”.
Nota: En estos documentos, el texto junto a la casilla de verificación está a la izquierda de la casilla, así que establecemos el área de búsqueda a su izquierda, no a la derecha. Configure el resto de los elementos según la siguiente tabla:
ParameterValue
Static Text search element:
NameCheckmark
Text to findX
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaRight of “kwCheckmark”, nearest to “kwCheckmark”
Static Text search element:
NameXMark
Text to findX
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaBelow the “kwCheckmark” top boundary, Below value = -15, Left of “kwCheckmark”, Above the “kwCheckmark” bottom boundary, Above value = -15, Nearest to “kwCheckmark”
Under what conditionsDo not find element if “Checkmark” is found
Region search element:
NameCheckmarkRegion
Search Conditions section of the Code Editorif Checkmark.IsFound then RSA: Checkmark.Rect; else if XMark.IsFound then RSA: XMark.Rect; else DontFind;
e. Cree una copia de “PrimaryGroup” y renómbrela a “SecondaryGroup”. Cambie el texto a buscar de su elemento “kwCheckmark” a “prolongation”, “verlenging”. f. Los partes de baja alemanes se dividían en dos tipos. A diferencia de estos, los partes de baja neerlandeses y belgas se dividen en tres tipos (el “relapse” es un tipo adicional). Por lo tanto, cree otra copia del grupo “PrimaryGroup” y renómbrela a “RelapseGroup”. g. Cambie el texto a buscar de su elemento “kwCheckmark” a “Herval” y habilite la opción Match case para excluir palabras que aparezcan en medio de una oración. Así es como debería verse la estructura del elemento de búsqueda: AD_Tutorial_BE_TypeOfSickNote_Structure
  1. Abra la ventana Manage Fields y agregue una casilla “Relapse” al grupo de casillas “Type of Sick Note”. Habilite todas las casillas del grupo para usarlas en la actividad actual y haga clic en Save.
  2. Asigne las casillas a los elementos Region correspondientes y elimine los elementos que se crearon automáticamente al habilitar los campos.

Probando la actividad

Hemos configurado todos los elementos de búsqueda y campos necesarios. Seleccione todos los documentos, haga clic en Match y cambie a la pestaña Fields para revisar las regiones de campos en las imágenes del documento. Tenga en cuenta que una región solo se asignará a un campo si pertenece a la hipótesis de la mejor ruta. Cuando esté satisfecho con los resultados, haga clic en el icono de copiar encima de la imagen del documento para copiar el etiquetado previsto al etiquetado de referencia.