Saltar al contenido principal
ABBYY Vantage ofrece un modo de aprendizaje automático para procesar documentos estructurados; por ejemplo, documentos en los que la ubicación de los campos es la misma en cada instancia. Ejemplos de este tipo de documentos incluyen cuestionarios, formularios de solicitud y formularios de declaración de impuestos. Algunos documentos estructurados pueden tener varias variantes, con ligeras diferencias en los campos y su ubicación.

Imágenes de muestra

IRS Form 1040 - 2020 IRS Form 1040 - 2019 Dos variantes del Form 1040 del IRS correspondientes a 2020 y 2019.

Creación de Habilidades para documentos estructurados

Puede crear habilidades para procesar documentos estructurados tanto en Vantage como en Advanced Designer. Sin embargo, para editar dichas habilidades, deberá usar Advanced Designer. En Vantage, puede crear una skill para procesar documentos estructurados activando el interruptor Fixed-form documents para esa skill. También deberá cargar y etiquetar algunos formularios en blanco.
Nota: Para obtener instrucciones detalladas sobre cómo crear una skill para procesar documentos estructurados con múltiples variantes, consulte Configurar una Skill de documento para procesar documentos estructurados.
La skill que cree en Vantage aparecerá en Advanced Designer. Su flujo de procesamiento de documentos incluirá una actividad Forms diseñada específicamente para procesar documentos estructurados.
Nota: Si no habilitó el interruptor Fixed-form documents, el flujo de procesamiento de documentos de su skill constará únicamente de la actividad Fast Learning.
En Advanced Designer, puede crear y editar skills para documentos estructurados cuando necesite combinar el procesamiento de documentos estructurados con otras tecnologías de Vantage. En este caso, una actividad Forms debe ir acompañada de otras actividades creadas y configuradas en Advanced Designer.
Nota: Si su flujo de procesamiento de documentos incluye una actividad Forms acompañada de otras actividades, o si contiene múltiples actividades Forms, sus opciones de edición en Vantage se limitarán a cambiar las propiedades de la skill y el entrenamiento no estará disponible. Para ediciones más avanzadas, use Advanced Designer.

Extracción de datos de formularios con elementos no estructurados o estructuras mixtas

Un documento estructurado puede contener a veces un elemento no estructurado, como un código de barras o un sello colocado en cualquier parte del documento, que también debe detectarse. Otro ejemplo es un documento mixto: una parte está estructurada, mientras que otra es una tabla de longitud variable (por ejemplo, una tabla con un número variable de filas). Para procesar estos documentos, utilice una actividad de Forms seguida de otra actividad que gestione los elementos no estructurados. En los pasos siguientes, utilizamos una actividad de Forms para procesar campos estructurados y una actividad de Extraction Rules para detectar códigos de barras.

Pasos para crear una Skill de documento

  1. Abra Advanced Designer. En la página de inicio, cree una nueva skill haciendo clic en Create Document Skill.
  2. Vaya a la pestaña Activities y agregue una actividad Forms al flujo de procesamiento de documentos.
  3. Haga clic en Activity Editor. En la pestaña Blank Form, cargue un formulario en blanco de muestra para cada variante de su documento (no recomendamos cargar más de 10 variantes diferentes). Etiquete los campos de los que se debe extraer los datos. Para obtener pautas sobre el etiquetado, consulte Labeling documents.
  4. Haga clic en Train Activity.
  5. Haga clic en la pestaña Test Set y cargue documentos de prueba completos. Asegúrese de que todos los campos estén etiquetados correctamente en cada documento. Haga clic en Test Activity. Cuando finalice la operación, revise los resultados.
  6. Regrese a la pestaña Activities y agregue una actividad Extraction Rules al flujo de procesamiento de documentos.
  7. Haga clic en Activity Editor y configure la actividad Extraction Rules.
  8. Haga clic en Test Skill Using Selected Documents. Cuando finalice la operación, revise los resultados. Si está satisfecho con ellos, publique su skill. De lo contrario, ajuste el etiquetado y luego vuelva a entrenar y probar la actividad.

Trabajo con tablas y grupos repetidos

Al procesar documentos estructurados, Vantage puede manejar tablas y grupos repetidos si se conoce de antemano el número máximo de filas de la tabla o instancias del grupo y los límites de la tabla o del grupo están definidos. Deberá etiquetar todas las filas que puedan aparecer en todas las variantes del formulario.
Nota: Solo se mostrarán en los resultados del procesamiento las filas con datos. Cualquier fila vacía será ignorada.
Si no se conoce de antemano el número de filas o de instancias en un grupo, debe usar otra tecnología de Vantage.
Nota: Actualmente, solo se pueden procesar tablas con valores de texto. Si su tabla tiene columnas con casillas de verificación o códigos de barras, utilice un grupo repetido en su lugar.

Extracción de datos de formularios y documentos no estructurados en un solo flujo

A veces, la información puede recopilarse mediante formularios y documentos no estructurados. Por ejemplo, las respuestas a un cuestionario pueden recibirse en formularios impresos o como documentos no estructurados redactados de forma libre. Para procesar una combinación de ambos tipos de documentos, utilice una actividad de Forms, que procesará los formularios, junto con una actividad de Fast Learning o Extraction Rules, que procesará los documentos no estructurados. Luego, aplique una actividad de Classify para separar los formularios de los documentos no estructurados.

Pasos para crear una Skill de documento

  1. Abra Advanced Designer. En la página de inicio, cree una nueva skill haciendo clic en Create Document Skill.
  2. Vaya a la pestaña Activities y agregue una actividad Forms al flujo de procesamiento de documentos.
  3. Haga clic en Activity Editor. En la pestaña Blank Form, cargue un formulario en blanco de ejemplo y etiquete los campos de los que se deben extraer datos. Para obtener pautas sobre el etiquetado, consulte Labeling documents.
  4. Haga clic en Train Activity.
  5. Haga clic en la pestaña Test Set y cargue documentos de prueba completos. Asegúrese de que todos los campos estén etiquetados correctamente en cada documento. Haga clic en Test Activity. Cuando finalice la operación, revise los resultados.
  6. Vaya a la pestaña Activities y agregue una actividad Fast Learning al flujo de procesamiento de documentos.
  7. Abra el Activity Editor para configurar y entrenar la actividad.
  8. Vaya a la pestaña Activities y agregue una actividad Classify al inicio del flujo de procesamiento de documentos.
  9. Haga clic en Activity Editor y configure la actividad Classify. Deberá crear una clase para cada variante de documento, asignar clases a sus documentos y entrenar la actividad.
  10. Regrese a la pestaña Activities y agregue una actividad IF para configurar bifurcaciones condicionales en el flujo de procesamiento de documentos. Conecte esta actividad con las actividades Forms y Fast Learning.
  11. Haga clic en Test Skill Using Selected Documents. Cuando finalice la operación, revise los resultados. Si está satisfecho con los resultados, publique su skill. De lo contrario, ajuste el etiquetado y vuelva a entrenar la actividad.