Paso 7. Configure la actividad Sick Note DE

Continuando con los documentos alemanes, configure la actividad Extraction Rules para ellos. Fast Learning ya se ha encargado de algunos campos. Esta actividad abarca el resto.

Antes de comenzar

Abra la actividad en el Activity Editor

Abra la actividad “Sick Note DE” en el Activity Editor.
Seleccione uno de los documentos del conjunto de documentos.

Habilite las propiedades avanzadas del elemento

Asegúrese de que el modo avanzado para las propiedades del elemento esté habilitado. Para activar o desactivar este modo, haga clic en el icono en el panel Properties.

Dos ayudas visuales le ayudarán mientras configura elementos de búsqueda:

Todos los documentos cargados han pasado por un prerreconocimiento. Haga clic en el icono (o haga clic en el icono de más y seleccione Recognized Words si el icono no cabe en su pantalla) para resaltar los objetos detectados en la imagen del documento. Puede alternar entre tipos de objetos en cualquier momento; por ejemplo, Recognized Lines ayuda al buscar párrafos y Separators facilita la configuración de un elemento de búsqueda separador.
Si un elemento de búsqueda está fuera del área de búsqueda, no se encontrará. Habilite la opción Show search area en el menú contextual de la imagen del documento para resaltar en verde el área de búsqueda de cada elemento cuando evalúe los resultados de coincidencia.

Tenga en cuenta que puede ser útil experimentar con las propiedades avanzadas de los elementos de búsqueda para mejorar la precisión de la extracción. Haga clic en Match con frecuencia para comprobar cómo funcionan sus reglas de extracción y comparar los resultados de extracción en distintos documentos del conjunto. Para probar un único elemento sin relaciones con otros elementos, haga clic en Match Element en su menú contextual. En este caso, la calidad de la hipótesis de los elementos anteriores no afectará los resultados de coincidencia.

Extraiga los datos del paciente

Extraiga los datos faltantes del paciente creando varios elementos de búsqueda. Agrupe los elementos relacionados con una entidad. Los elementos de búsqueda se comparan uno tras otro: si falla un elemento al principio, la calidad de la hipótesis disminuye para el resto de la cadena. Los grupos, sin embargo, se procesan de forma independiente con su propia hipótesis, por lo que agrupar le permite controlar cómo se afectan entre sí los elementos y evaluar los resultados de la coincidencia de un vistazo. La agrupación también puede reducir el tiempo de coincidencia.

Cree el grupo PatientDataArea

Haga clic en Create Element y seleccione el elemento grupo en la lista desplegable. Cambie su nombre a “PatientDataArea”.
En la sección En qué condiciones, cambie el valor de Element is a Optional.

De forma predeterminada, un nuevo elemento de búsqueda de grupo se establece como obligatorio. Si no se encuentra un elemento obligatorio, el Activity Editor genera un error y se interrumpe la coincidencia; esto permite omitir actividades que no sean adecuadas para un documento determinado. Sin embargo, en este tutorial, la actividad debe extraer datos de todos los documentos entrantes, por lo que el grupo debe ser opcional.

Localice la etiqueta del paciente con un elemento de texto estático

En los documentos alemanes, el párrafo que contiene el nombre y la dirección del paciente siempre está ubicado en el campo con la etiqueta “Name, Vorname …”. Necesitamos encontrar este texto en el documento y usarlo como referencia para buscar los datos que queremos extraer.

Haga clic en Create Element y seleccione el elemento Texto estático de la lista desplegable. Cambie su nombre a “kwPatientTitle”.
Introduzca el texto “Name, Vorname” en el campo Texto para buscar del panel Propiedades.
Haga clic en Match. Cuando finalice el procesamiento, verá el Árbol de hipótesis debajo del documento.
Asegúrese de que Advanced Designer haya encontrado correctamente el texto estático: un punto verde junto al nombre del elemento indica que la coincidencia se encontró correctamente.
Haga clic en el nombre del elemento en el Árbol de hipótesis para ver un marco violeta alrededor de la región correspondiente del documento.

Si no se encontró un elemento, verá un punto naranja junto a su nombre y un marco naranja alrededor de la imagen del documento. Tenga en cuenta que la calidad de la hipótesis de un elemento afecta al estado de los elementos posteriores de la cadena y a la calidad general de la cadena. Para obtener más información, consulte Optimization of Hypothesis Matching.

Encuentre el límite inferior con un separador

Encuentre el límite inferior de la celda que contiene el nombre y la dirección del paciente mediante un elemento separador.

Agregue un elemento separador al grupo y asígnele el nombre “SeparatorBottom”. Establezca su longitud mínima en 200.
Haga clic con el botón derecho en el elemento y seleccione Match Element en el menú contextual. El Árbol de hipótesis contiene muchos puntos verdes; corresponden a distintos separadores que cumplen los criterios de búsqueda. Haga clic en cada punto para ver el objeto correspondiente en la imagen.
Para acotar los criterios de búsqueda, especifique el área de búsqueda del separador:
1. Haga clic en Match para encontrar el elemento “kwPatientTitle”, que se utilizará como elemento de anclaje.
2. En la sección Dónde buscar del panel Propiedades, haga clic en Draw on Image.
3. Seleccione el elemento “kwPatientTitle” en el documento. Haga clic en el icono de flecha hacia abajo para especificar el área de búsqueda debajo de la palabra clave y, a continuación, en el icono más cercano para buscar el separador más próximo a la palabra clave.
Haga clic en Match y compruebe que Advanced Designer haya encontrado el separador debajo del elemento “kwPatientTitle”.

Busque el párrafo con el nombre y la dirección

Una etiqueta y un separador son elementos de referencia fiables para los datos del paciente. Sin embargo, si la calidad de impresión es demasiado baja, es posible que no se reconozca el texto de la etiqueta o que no se encuentre el separador. Para garantizar buenos resultados de extracción, busque un párrafo situado entre la etiqueta y el separador. Un párrafo es un bloque de texto uniforme, por lo que puede encontrarse incluso cuando faltan algunos elementos delimitadores.

Cree un elemento de búsqueda de Párrafo y asígnele el nombre “NameAddressParagraph”.
Cambie Text alignment a Left.
Los datos del paciente ocupan de dos a cinco líneas, así que especifique Line count de 2 a 5.
Especifique el área de búsqueda del párrafo mediante el menú Add en la sección Where to search. El elemento debe estar situado debajo del elemento “kwPatientTitle” y encima del elemento “SeparatorBottom”.
Haga clic en Match.

Crear PatientGroup

Cree un nuevo elemento de grupo llamado “PatientGroup” para agrupar los elementos de búsqueda que extraen los datos del paciente.

Configurar el grupo repetido NameGroup

El nombre del paciente puede ocupar una o dos líneas. Para capturar varias instancias de un elemento, use un grupo repetido.

Cree un elemento de búsqueda Grupo repetido y asígnele el nombre “NameGroup”. Especifique 2 como número máximo de repeticiones. Haga que el elemento sea opcional.
Para restringir el área de búsqueda a las líneas que forman parte del párrafo “NameAddressParagraph”, haga clic en el icono del editor de código situado debajo de la imagen del documento y pegue el siguiente script en la sección Search Conditions del Code Editor:
RSA:PatientDataArea.NameAddressParagraph.Rect;
Dentro del grupo repetido, cree un elemento Cadena de caracteres diseñado para capturar una línea de caracteres. Asígnele el nombre “NameLine”.
El texto que buscamos puede contener letras mayúsculas y minúsculas, así como un conjunto de signos de puntuación. Configure dos conjuntos de caracteres independientes:
- El primer conjunto contiene todas las letras latinas mayúsculas y minúsculas. Para agregar caracteres con signos diacríticos, cambie el subrango Unicode o pegue los caracteres directamente en el campo Selected characters.
- El segundo conjunto contiene los signos de puntuación: ,-.()’. Para evitar que la cadena contenga únicamente signos de puntuación, establezca Portion in text, % para el segundo conjunto en 40%.
Desactive la opción Search for parts of words.
Especifique el área de búsqueda para el elemento “NameLine”: debajo del elemento “kwPatientTitle” y lo más cerca posible de él.
Haga clic en Match y revise el Tree of Hypotheses. Se encuentran dos cadenas de caracteres, pero la segunda contiene la dirección del paciente.
Para excluir la dirección de los resultados de búsqueda, agregue una condición de búsqueda mediante script:
1. Seleccione el elemento de búsqueda “NameLine” y abra el editor de código de Search Conditions.
2. Pegue el siguiente script: se asume que la primera línea contiene un nombre completo si incluye una coma y un espacio; si se encuentra un nombre completo, el grupo repetido deja de buscar una segunda instancia:
  if (NameGroup.HasInstances and LastFound.NameLine.Value.Find(", ") > 0) then DontFind;
Haga clic en Match y asegúrese de que el nombre se haya encontrado correctamente.

La configuración predeterminada permite que la cadena contenga hasta un 30% de caracteres no incluidos en ningún conjunto. Esto ayuda a encontrar cadenas incluso cuando algunos caracteres se reconocen incorrectamente o no están incluidos en el conjunto (como los caracteres con signos diacríticos). Puede ajustar esta configuración cambiando el valor de Allowed errors en el panel Propiedades.

Cree el elemento Region NameRegion

No es posible asignar un campo a un elemento que tenga instancias repetidas, así que cree un elemento auxiliar Region que contenga todas las regiones de las instancias de “NameGroup”.

Cree un elemento de búsqueda Region en el grupo “PatientGroup” y cámbiele el nombre a “NameRegion”.
Abra el Code Editor y pegue el siguiente script en la sección Search Conditions:
RSA: NameGroup.AllInstances.NameLine.Rects;

Crear el elemento AddressRegion de tipo Region

Ya se encontró el nombre del paciente y el resto del párrafo “NameAddressParagraph” es la dirección. Para especificar la región que contiene la dirección, excluya de la región “NameAddressParagraph” los rectángulos de “NameGroup”.Cree otro elemento Region en el grupo “PatientGroup”, asígnele el nombre “AddressRegion” y pegue el siguiente script en la sección Search Conditions del Code Editor:

RSA: PatientDataArea.NameAddressParagraph.Rects;
Exclude: NameGroup.AllInstances.NameLine.Rects;

La estructura del elemento de búsqueda debería verse así:

Jerarquía del elemento de búsqueda para los datos del paciente alemán: grupo PatientDataArea que contiene kwPatientTitle, SeparatorBottom, NameAddressParagraph y PatientGroup con NameGroup, NameRegion y AddressRegion

Crear y mapear los campos del paciente

Abra el cuadro de diálogo Manage Fields, cree los campos correspondientes y asígnelos a los elementos de búsqueda de la siguiente manera:

Nombre	Tipo	Elemento de búsqueda
Nombre completo	Campo de texto en el grupo “Paciente”	NameRegion
Address	Campo de texto en el grupo “Paciente”	AddressRegion

Elimine los elementos de búsqueda que se crearon automáticamente para los nuevos campos.

Extraiga el tipo de parte de baja por enfermedad

El campo del tipo de parte de baja por enfermedad tiene dos casillas de verificación. Sus etiquetas son “Erstbescheinigung” y “Folgebescheinigung”. La tarea consiste en localizar las etiquetas y, a continuación, comprobar si hay marcas de verificación seleccionadas junto a ellas.

Crear el TypeOfSickNoteGroup y el PrimaryGroup

Cree un grupo “TypeOfSickNoteGroup”. Dentro de él, cree un grupo “PrimaryGroup”. Haga que ambos grupos sean opcionales.

Configurar el PrimaryGroup

Dentro del grupo “PrimaryGroup”, cree un elemento texto estático llamado “kwCheckmark” (texto que se debe buscar: “Erstbescheinigung”).
Este elemento no está relacionado con los elementos buscados anteriormente. En lugar de hacer coincidir todo el árbol de elementos, haga coincidir solo el elemento nuevo haciendo clic en Match Element en el menú contextual del elemento “kwCheckmark”. Asegúrese de que la palabra clave se encuentre correctamente.
Ahora busque la marca de verificación usando un elemento colección de objetos, que se utiliza para encontrar varios objetos gráficos como marcas de verificación, códigos de barras e imágenes.
- Agregue un elemento colección de objetos llamado “Checkmark”.
- En la lista desplegable Type del panel Propiedades, desmarque todas las opciones excepto Checkmark.
- Establezca el ancho y la altura mínimos del objeto en 30, y el ancho y la altura máximos del objeto en 130.
- Especifique el área de búsqueda de la marca de verificación a la izquierda del elemento “kwCheckmark”.
- La marca de verificación debe estar situada aproximadamente en la misma línea que la palabra clave. Especifique dónde deben estar situados los bordes superior e inferior del elemento con respecto a la palabra clave pegando el siguiente código en la sección Search Conditions del Code Editor:
  RSA: TopBound > kwCheckmark.Top - 50dot; RSA: BottomBound < kwCheckmark.Bottom + 50dot;
- Haga clic en Match.

Crear y configurar el SecondaryGroup

Copie el grupo “PrimaryGroup” y cambie el nombre de la copia a “SecondaryGroup”.
Al copiar un grupo, también copia todos sus elementos con sus propiedades. Seleccione el elemento “kwCheckmark” en el grupo “SecondaryGroup” y cambie el texto que se debe buscar a “Folgebescheinigung”.
El elemento de búsqueda colección de objetos encuentra una colección de todos los objetos adecuados dentro del área de búsqueda. Si las marcas de verificación están situadas en la misma línea, el elemento “Checkmark” de “SecondaryGroup” también puede encontrar la marca de verificación principal. Para evitarlo, excluya la marca de verificación principal (elemento “Checkmark” de “PrimaryGroup”) del área de búsqueda del elemento “Checkmark” de “SecondaryGroup”.
Haga clic en Match.

La estructura del elemento de búsqueda debería verse así:

Jerarquía de elementos de búsqueda para el tipo de parte de baja por enfermedad en alemán: TypeOfSickNoteGroup contiene PrimaryGroup y SecondaryGroup, cada uno con una palabra clave kwCheckmark y elementos Checkmark

Crear y asignar los campos del tipo de parte de baja por enfermedad

Abra la ventana Manage Fields, cree los campos correspondientes y asígnelos a los elementos de búsqueda de la siguiente manera:

Nombre	Tipo	Elemento de búsqueda
Tipo de parte de baja por enfermedad	grupo de marcas de verificación
Principal	marca de verificación en el grupo de marcas de verificación “Tipo de parte de baja por enfermedad”	PrimaryGroup -> Checkmark
Secundario	marca de verificación en el grupo de marcas de verificación “Tipo de parte de baja por enfermedad”	SecondaryGroup -> Checkmark

Elimine los elementos de búsqueda que se crearon automáticamente para los nuevos campos.

Extraer los datos del médico

El último bloque de datos de estos documentos contiene los datos y la firma del médico. Primero busque el cuadro que contiene los datos y luego extraiga un párrafo con la información del médico y una región de imagen que contenga la firma.

Cree DoctorAreaGroup y DataArea

Cree un elemento Group llamado “DoctorAreaGroup” y haga que el elemento sea opcional.
Para encontrar la etiqueta del cuadro, cree un elemento Static Text llamado “kwDoctorTitle” (texto a buscar: “Unterschrift des Arztes”).
Dentro del grupo “DoctorAreaGroup”, cree otro grupo llamado “DataArea”.

Agregue los cuatro separadores delimitadores

El cuadro que contiene la información y la firma del médico es una combinación de cuatro separadores ubicados alrededor del elemento “kwDoctorTitle”. Configure los elementos de forma que Advanced Designer pueda encontrarlos incluso si no se encontró “kwDoctorTitle”.En el grupo “DataArea”, cree cuatro elementos de búsqueda Separator con las siguientes propiedades:

Name	Orientation	Minimum length	Search area
SeparatorRight	Vertical	180	A la derecha de “kwDoctorTitle”, más cercano al borde derecho de la página
SeparatorLeft	Vertical	180	A la izquierda de “kwDoctorTitle”, a la izquierda de “SeparatorRight” (en caso de que no se haya encontrado “kwDoctorTitle”), más cercano a “SeparatorRight”, por debajo de “SeparatorRight” (haga clic en el icono a la derecha del nombre del separador y seleccione Top Boundary of Region), excluir “SeparatorRight”
SeparatorBottom	Horizontal	200	Por debajo de “kwDoctorTitle” (con un ajuste de -10 puntos), a la derecha de “SeparatorLeft”, a la izquierda de “SeparatorRight”, más cercano al borde inferior de la página (esta configuración será útil en caso de que no se haya encontrado “kwDoctorTitle”)
SeparatorTop	Horizontal	200	Por encima de “kwDoctorTitle”, a la derecha de “SeparatorLeft”, más cercano a “TypeOfSickNoteGroup”, excluir “SeparatorBottom”

Desactive la opción Fits entirely within search area para los cuatro elementos.

Cree BoxRegion

Cree un elemento de búsqueda Region llamado “BoxRegion” y especifique el área de búsqueda: a la izquierda de “SeparatorRight”, a la derecha de “SeparatorLeft”, por encima de “SeparatorBottom” y por debajo de “SeparatorTop”.Esta región corresponde al área delimitada por los cuatro separadores; usarla evita tener que especificar manualmente las áreas de búsqueda para la firma y la información del médico.

Crear el grupo DoctorGroup

Cree un nuevo grupo llamado “DoctorGroup” dentro de “DoctorAreaGroup” para incluir los elementos de firma e información.

Añada la colección de objetos Signature

Para localizar la firma del médico, cree un elemento Object Collection dentro de “DoctorGroup” con la siguiente configuración:

Property	Value
Name	Signature
Type	Picture
Minimum width	15
Minimum height	15
Maximum width	600
Maximum height	350
Search Conditions section of the Code Editor	La firma puede estar ubicada parcialmente fuera del cuadro. Para encontrar la imagen completa, expandiremos el área de búsqueda en 100 puntos en cada dirección: `RSA: DoctorAreaGroup.DataArea.BoxRegion.Rect.GetInflated(100dot,100dot);`

Agregue el párrafo "DoctorInformation"

Para extraer la información de texto del cuadro, cree un elemento Paragraph con la siguiente configuración:

Property	Value
Name	DoctorInformation
Maximum line count	6
Search area	Por encima de “kwDoctorTitle”, excluir “Signature”
Search Conditions section of the Code Editor	`RSA: DoctorAreaGroup.DataArea.BoxRegion.Rect;`

Compruebe que se hayan encontrado los elementos

Haga clic en Match y asegúrese de que los elementos se encuentren correctamente.La estructura de elementos de búsqueda debe verse así:

Jerarquía de elementos de búsqueda para los datos del médico alemán: DoctorAreaGroup contiene kwDoctorTitle y DataArea (con cuatro Separators y BoxRegion como límites), además de DoctorGroup con Signature y DoctorInformation

Cree y asigne los campos del médico

Abra el cuadro de diálogo Manage Fields, cree los campos correspondientes y asígnelos a los elementos de búsqueda de la siguiente manera:

Name	Type	Search element
Doctor Information	Campo de texto en el grupo “Doctor”	DoctorInformation
Signature	Campo de imagen en el grupo “Doctor”	Signature

Elimine los elementos de búsqueda que se crearon automáticamente para los nuevos campos.

Probar la actividad

Todos los elementos de búsqueda y campos necesarios ya están configurados. Seleccione todos los documentos, haga clic en Match y cambie a la pestaña Fields para revisar las regiones de campo en las imágenes del documento. Tenga en cuenta que una región solo se asignará a un campo si pertenece a la hipótesis de la mejor ruta. Cuando esté satisfecho con los resultados, haga clic en el icono de copiar sobre la imagen del documento para copiar el etiquetado previsto al etiquetado de referencia.

Qué sigue

Step 8. Configurar la actividad Sick Note BE-NL

Configure la actividad Extraction Rules para los partes de baja por enfermedad de los Países Bajos y Bélgica.

Resumen del tutorial

Volver a la introducción del tutorial.

​Antes de comenzar

​Extraiga los datos del paciente

​Extraiga el tipo de parte de baja por enfermedad

​Extraer los datos del médico

​Probar la actividad

​Qué sigue

Step 8. Configurar la actividad Sick Note BE-NL

Resumen del tutorial

Antes de comenzar

Extraiga los datos del paciente

Extraiga el tipo de parte de baja por enfermedad

Extraer los datos del médico

Probar la actividad

Qué sigue