Saltar al contenido principal

Documentation Index

Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt

Use this file to discover all available pages before exploring further.

Con la actividad alemana ya configurada, configure la segunda actividad Extraction Rules para los partes de baja por enfermedad neerlandeses y belgas. Los partes de baja por enfermedad neerlandeses y belgas tienen una estructura distinta a la de los documentos alemanes y presentan una gran variabilidad dentro de esta clase documental, por lo que Fast Learning no es viable aquí. Algunos campos son exclusivos de estos documentos, y los añadirá al formulario de datos a medida que configure la actividad. Empiece con los campos que aparecen en todos los documentos y, a continuación, amplíe el formulario para incluir los nuevos.
Cambie de actividad sin cerrar el Activity Editor haciendo clic en el nombre de la actividad actual junto al nombre de la skill y seleccionando “Sick Note BE-NL” en la lista desplegable. Luego, seleccione el primer documento del conjunto.

Extraer la fecha de emisión

Las fechas de estos documentos pueden extraerse fácilmente con el elemento fecha, así que esta vez usaremos el elemento de búsqueda que se creó automáticamente para este campo.
1

Agregar el campo fecha

  1. Abra el cuadro de diálogo Manage Fields en la pestaña Fields y seleccione un campo “fecha” para usarlo en esta actividad. Haga clic en Save.
  2. Vaya a la pestaña Search Elements. Se ha creado automáticamente un elemento de búsqueda de tipo fecha para el campo “fecha” y se ha asignado.
2

Crear IssueDateGroup con la etiqueta kwDate

  1. Cree un elemento de búsqueda de grupo llamado “IssueDateGroup” y configúrelo como opcional.
  2. Agregue un elemento de texto estático llamado “kwDate” dentro del grupo; este encuentra la etiqueta que ayuda a localizar la fecha real.
  3. Como esta clase de documento contiene documentos en neerlandés o francés, introduzca las opciones de texto de la etiqueta en líneas separadas en el cuadro de diálogo Text to find: “Date” en la primera línea y “Datum” en la segunda.
  4. Desactive la opción Search for parts of words.
3

Agregar el elemento fecha al grupo

Arrastre y suelte el elemento de búsqueda “fecha” en el grupo y colóquelo debajo del elemento “kwDate”.
4

Configurar el área de búsqueda del elemento fecha

  1. Elimine la relación Nearest to que se agregó automáticamente cuando se creó el elemento.
  2. Seleccione el elemento “kwDate” como el más cercano al elemento que se está buscando.
  3. La fecha puede estar a la derecha de la palabra clave o debajo de ella. Especifique el área de búsqueda debajo del elemento “kwDate”.
  4. El área de búsqueda también debe incluir la línea en la que se encuentra la palabra clave. Haga clic en el icono del límite inferior situado a la derecha del nombre del elemento y seleccione Top Boundary of Region. Las líneas pueden ser irregulares, así que establezca el valor de Below en -10 para extender ligeramente el área de búsqueda por encima de la línea.
5

Verificar que se encuentre la fecha

Haga clic en Match para asegurarse de que la fecha se localiza correctamente.La estructura del elemento de búsqueda debería verse así:
Jerarquía del elemento de búsqueda para la fecha de emisión belga-neerlandesa: IssueDateGroup contiene la palabra clave kwDate y el elemento fecha

Extracción de las fechas de la baja

Extraeremos estas fechas utilizando elementos de valor clave. El elemento valor clave permite buscar tanto una etiqueta de texto estático como el valor. Sin embargo, no admite demasiada variación en la ubicación ni en las propiedades del valor. En estos documentos, las fechas de la baja están formateadas de modo que cada componente de la fecha esté en una celda independiente de una tabla. Las celdas de la tabla pueden ubicarse en lugares no estándar en cada documento, pero la posición relativa de las celdas siempre es la misma. No podemos confiar en que los límites de las celdas de la tabla estén muy claros, pero aun así usaremos el elemento celda de tabla porque permite bordes difusos y será conveniente si decidimos entrenar la actividad con más documentos. Por lo tanto, usaremos el elemento grupo para organizar la jerarquía de elementos de búsqueda.
Puede usar el elemento celda de tabla no solo para campos ubicados dentro de las tablas del documento. También puede ser útil si necesita extraer datos de un formulario donde el contenido esté ubicado en recuadros similares o en estructuras tipo tabla. Si estos recuadros tienen líneas divisorias claras, el elemento celda de tabla resultará muy eficaz.
1

Agregue los campos Start fecha y End fecha

Abra el cuadro de diálogo Manage Fields y agregue los siguientes campos a la actividad actual:
  • Start fecha
  • End fecha
Haga clic en Save.
2

Cree el StartDateGroup con elementos celda de tabla

Vaya a la pestaña Search Elements y cree el elemento grupo para la extracción de la fecha de inicio. Establezca los siguientes parámetros para los elementos incluidos en el grupo:
ParameterValue
grupo search element:
NameStartDateGroup
texto estático search element:
NamekwStartDate
Text to findVanaf / From, A partir du, Van
Search for parts of wordsDisabled
celda de tabla search elements:
NameStartDateDay
Search patternNumber
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaBelow the “kwStartDate” element, nearest to “kwStartDate”
celda de tabla search element:
NameStartDateMonth
Search patternNumber
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaBelow the “kwStartDate” element, right of “StartDateDay”, nearest to “StartDateDay”
celda de tabla search element:
NameStartDateYear
Search patternNumber
Character count{2, 2, 4, 4}
Search for parts of wordsDisabled
Search areaBelow the “kwStartDate” element, right of “StartDateMonth”, nearest to “StartDateMonth”
El elemento celda de tabla devuelve el texto de la celda tal cual. En este caso, el patrón de búsqueda contiene un Number que reconoce solo los dígitos, por lo que el texto devuelto por el elemento será un número.
3

Cree el EndDateGroup como una copia

  1. Cree una copia del elemento “StartDateGroup” y cámbiele el nombre a “EndDateGroup”.
  2. Cambie el nombre de los subelementos del grupo: de “kwStartDate” a “kwEndDate”, de “StartDateDay” a “EndDateDay”, de “StartDateMonth” a “EndDateMonth”, de “StartDateYear” a “EndDateYear”.
  3. Cambie el texto a buscar del elemento “kwEndDate” a “Tot en met / Till and incl., Jusqu’ au, Tot en met”.
  4. Especifique el área de búsqueda para el elemento “EndDateDay”: debajo del elemento “kwEndDate” y lo más cerca posible de él. Elimine las demás relaciones.
4

Agregue campos Data Composition para las fechas

  1. Abra el cuadro de diálogo Manage Fields y agregue un Data Composition Field llamado “Start fecha Composed”. Asigne los siguientes elementos a los campos:
    • “StartDateDay” a Day
    • “StartDateMonth” a Month
    • “StartDateYear” a Year
    Haga clic en Save.
  2. Cree un Data Composition Field llamado “End fecha Composed”. Asigne los siguientes elementos:
    • “EndDateDay” a Day
    • “EndDateMonth” a Month
    • “EndDateYear” a Year
    Haga clic en Save.
  3. Asigne los campos de composición de datos “Start fecha Composed” y “End fecha Composed” a los campos “Start fecha” y “End fecha”.
La estructura de los elementos de búsqueda debe verse así:
Jerarquía de elementos de búsqueda para las fechas de baja belgas en neerlandés: StartDateGroup y EndDateGroup, cada uno con un texto estático de palabra clave y tres elementos celda de tabla para día, mes y año

Extracción del tipo de parte de baja

Extraeremos el tipo de parte de baja mediante una casilla de verificación de la misma forma que hicimos con los documentos alemanes.
1

Habilite las casillas Primary y Secondary

Abra el cuadro de diálogo Manage Fields en la pestaña Fields y habilite el grupo de casillas “Type of Sick Note”. Habilite las casillas “Primary” y “Secondary” del grupo para usarlas en la actividad actual. Haga clic en Save.
2

Cree la etiqueta TypeOfSickNoteGroup y PrimaryGroup

Cree una estructura similar a la de los documentos alemanes, pero tenga en cuenta que en los documentos neerlandeses y belgas la etiqueta va primero — el orden de los elementos secundarios en estos grupos importa.
  1. Cree un elemento grupo llamado “TypeOfSickNoteGroup”.
  2. Cree una copia de este grupo, renómbrelo a “PrimaryGroup” y colóquelo dentro de “TypeOfSickNoteGroup”.
  3. Agregue un elemento texto estático llamado “kwCheckmark” al grupo “PrimaryGroup”.
  4. Configure el texto a buscar como “eerste / Primary, première, primair”.
En estos documentos, el texto junto a la casilla de verificación está a la izquierda de la casilla, así que el área de búsqueda va a la izquierda, no a la derecha.
3

Configure los elementos Checkmark, XMark y CheckmarkRegion

Configure el resto de los elementos según la siguiente tabla:
ParameterValue
texto estático search element:
NameCheckmark
Text to findX
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaRight of “kwCheckmark”, nearest to “kwCheckmark”
texto estático search element:
NameXMark
Text to findX
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaBelow the “kwCheckmark” top boundary, Below value = -15, Left of “kwCheckmark”, Above the “kwCheckmark” bottom boundary, Above value = -15, Nearest to “kwCheckmark”
Under what conditionsDo not find element if “Checkmark” is found
Region search element:
NameCheckmarkRegion
Search Conditions section of the Code Editorif Checkmark.IsFound then RSA: Checkmark.Rect; else if XMark.IsFound then RSA: XMark.Rect; else DontFind;
4

Cree SecondaryGroup y RelapseGroup

  1. Cree una copia de “PrimaryGroup” y renómbrela a “SecondaryGroup”. Cambie el texto a buscar de su elemento “kwCheckmark” a “prolongation”, “verlenging”.
  2. Los partes de baja neerlandeses y belgas se dividen en tres tipos — “relapse” es un tipo adicional en comparación con los partes de baja alemanes. Cree otra copia de “PrimaryGroup” y renómbrela a “RelapseGroup”.
  3. Cambie el texto a buscar del elemento “kwCheckmark” de RelapseGroup a “Herval” y habilite la opción Match case para excluir palabras que aparezcan en medio de una oración.
La estructura del elemento de búsqueda debería verse así:
Jerarquía de elementos de búsqueda para el tipo de parte de baja belga-neerlandés: TypeOfSickNoteGroup que contiene PrimaryGroup, SecondaryGroup y RelapseGroup, cada uno con los elementos kwCheckmark, Checkmark, XMark y CheckmarkRegion
5

Agregue la casilla Relapse y asigne los campos

  1. Abra la ventana Manage Fields y agregue una casilla “Relapse” al grupo de casillas “Type of Sick Note”. Habilite todas las casillas del grupo para usarlas en la actividad actual y haga clic en Save.
  2. Asigne las casillas a los elementos Region correspondientes y elimine los elementos que se crearon automáticamente al habilitar los campos.

Probando la actividad

Hemos configurado todos los elementos de búsqueda y campos necesarios. Seleccione todos los documentos, haga clic en Match y cambie a la pestaña Fields para revisar las regiones de campos en las imágenes del documento. Tenga en cuenta que una región solo se asignará a un campo si pertenece a la hipótesis de la mejor ruta. Cuando esté satisfecho con los resultados, haga clic en el icono de copiar encima de la imagen del documento para copiar el etiquetado previsto al etiquetado de referencia.

Qué sigue

Paso 9. Configurar reglas de negocio

Agregue reglas de negocio para validar y normalizar los valores de los campos extraídos.

Descripción general del tutorial

Vuelva a la introducción del tutorial.