Saltar al contenido principal
Puede resultar difícil especificar las propiedades de extracción de campos cuando una única Skill de documento debe procesar documentos que difieren significativamente en la ubicación de sus campos (aunque sean del mismo tipo). Por ejemplo, la misma skill puede usarse para procesar facturas de distintos Proveedores, donde los mismos campos pueden ubicarse en lugares que varían de un proveedor a otro. Para mejorar la calidad de extracción en estas skills, puede clasificar sus documentos en clases, que son subgrupos de documentos (con propiedades comunes) dentro de un único tipo de documento, y configurar actividades de extracción por separado para cada uno. También puede ser necesario clasificar documentos en clases cuando deba mejorar la calidad de extracción de una de ellas. Por ejemplo, una única skill puede usarse para procesar estados de cuenta bancarios emitidos por diferentes bancos. Es posible que un tipo de estado de cuenta tenga una calidad de extracción inferior en comparación con los demás. Para mejorar la calidad de extracción de esa skill, puede clasificar los estados de cuenta en clases y configurar una actividad de Extraction Rules para la clase con calidad de extracción insatisfactoria. La actividad Clasificar por texto e imagen está diseñada para clasificar los documentos de una skill en clases que requieren crear y configurar sus propias actividades de extracción.

Descripción general de la configuración

Para crear y configurar una actividad Classify By Text and Image, sigue estos pasos:
  1. Crea una actividad Classify By Text and Image en el flujo de procesamiento de documentos.
  2. Sube imágenes, crea clases y asigna clases esperadas a los documentos.
  3. Entrena la actividad y analiza los resultados del entrenamiento.
  4. Modifica las propiedades si necesitas mejorar los resultados de la clasificación.

Creación y configuración mediante la pestaña Activities

Cree una actividad Classify By Text and Image en el flujo de trabajo. Al crearla, se generará un campo para registrar los resultados de la clasificación en la estructura de la Habilidad. El valor de este campo se usará para clasificar los documentos. Este campo se mostrará en la estructura de campos de la skill; sin embargo, aparecerá como oculto y no será editable.
Nota: Una actividad Classify By Text and Image no devuelve un valor de confianza para una clase; solo devuelve su nombre.
Para ir al Activity Editor, haga clic en Activity Editor o haga doble clic en el bloque de la actividad.

Configuración con el Editor de actividades

Paso 1: Cargar documentos

Cargue los documentos que se usarán para configurar la actividad haciendo clic en Upload en la barra de herramientas y seleccionando un método de carga: a. Upload Documents… Use el cuadro de diálogo que se abrirá para seleccionar los documentos correspondientes. Los documentos seleccionados se mostrarán en la lista No Class. b. Upload Folder Like Classes… Use el cuadro de diálogo que se abrirá para seleccionar una carpeta que contiene subcarpetas con imágenes. Cada subcarpeta debe contener imágenes de una sola clase. Cargar documentos de esta manera creará automáticamente clases que correspondan a las subcarpetas, y los documentos en esas subcarpetas quedarán clasificados como de esa clase. Por lo tanto, no necesitará crear clases manualmente en el Activity Editor.

Paso 2: Crear clases

Cree clases que correspondan a los diferentes tipos de documentos que se están procesando haciendo clic en Create Class en la barra de herramientas o en Create en el panel Assign class. Si sus documentos se cargaron usando Upload folder like classes, asegúrese de que se hayan creado todas las clases necesarias.

Paso 3: Clasificar Documentos

Clasifique sus documentos usando uno de los siguientes métodos:
  • Seleccione todos los documentos de una misma clase en la lista y haga clic en el nombre de la clase correspondiente en el panel Assign class.
  • Si aún no existe una clase adecuada, seleccione todos los documentos correspondientes en la lista y cree una clase haciendo clic en Create Class en la barra de herramientas o en Create en el panel Assign class.
  • Seleccione todos los documentos de una misma clase y arrástrelos a la lista correspondiente a esa clase.

Opciones adicionales

Si es necesario, puede cambiar la orientación de las páginas del documento mediante el menú desplegable Rotate en la barra de herramientas. Puede seleccionar una de las siguientes opciones: Rotate All Pages Left, Rotate All Pages Right o Rotate All Pages 180º. Para cambiar el modo de visualización, use los siguientes botones en la barra de herramientas:
  • Vista de lista. Muestra los documentos como una lista
  • Vista de miniaturas. Muestra los documentos como miniaturas
Para ver la imagen completa de un documento mostrado en la vista de miniaturas, use el botón de vista previa.

Entrenar un clasificador y ver los resultados de clasificación

Una vez que los documentos se hayan clasificado, entrene la actividad con el botón Train Activity. Cuando finalice el entrenamiento, en la pestaña Results se mostrarán estadísticas sobre los resultados de la clasificación. Analizar estas estadísticas ayuda a identificar clases problemáticas y evaluar la calidad general del clasificador.

Estadísticas generales

El panel superior muestra estadísticas generales para todos los documentos y clases de la actividad. Estas estadísticas ayudan a evaluar la calidad general de su clasificador:
  • Exactitud. El porcentaje de documentos cuya clase esperada coincidió con la clase asignada por el programa.
  • Medida F. Úsela para evaluar la precisión y la exhaustividad de la clasificación.
  • Exhaustividad (Recall). La proporción de documentos correctamente clasificados como una clase específica respecto de todos los documentos de esa clase.
  • Precisión (Precision). La proporción de documentos correctamente clasificados como una clase específica respecto de todos los documentos clasificados como esa clase (tanto correcta como incorrectamente).

Estadísticas específicas por clase

En el panel Clases, puede ver estadísticas para cada clase. Para cada clase, se muestra el porcentaje de documentos cuya clase esperada coincide con la clase asignada por el programa, así como la cantidad de documentos con clases asignadas correcta e incorrectamente. Para ver los documentos con clases asignadas incorrectamente, seleccione la clase correspondiente en el panel Clases y expanda la lista de documentos asignados incorrectamente (mostrada en rojo). Analizar estos documentos debería ayudarle a entender por qué el programa asignó a un documento específico una clase distinta de la esperada. Esto puede suceder a menudo si la clase esperada se asignó incorrectamente desde el principio, por ejemplo, cuando los documentos de diferentes clases son muy similares.

Corrección de errores de clasificación

Clases esperadas incorrectas

Una posible causa de una clasificación errónea es haber asignado incorrectamente las clases esperadas. Para corregir este tipo de error, simplemente asigne la clase esperada correcta a un documento. En la pestaña Results, seleccione una clase que se haya asignado incorrectamente a un documento. Expanda la lista de documentos con clases asignadas incorrectamente, seleccione todos los documentos de esa clase y asígneles la clase esperada correcta desde la lista en el panel Assign class.

Documentos similares en distintas clases

Otra posible causa de errores de clasificación es tener documentos muy similares divididos en clases diferentes. Si el clasificador confunde las clases de dos variantes de documento similares, lo más probable es que estas variantes deban estar en una misma clase, con una única actividad de extracción. En ese caso, revise el número de clases y unifique las clases confundidas en una sola. Sus diferencias deberán describirse mediante reglas en una actividad de Extraction Rules.

Datos de entrenamiento insuficientes

Otra posible causa de los errores de clasificación es la escasez de documentos en un conjunto de clases. En ese caso, puede mejorar la calidad del clasificador añadiendo más documentos al conjunto. Después de añadir nuevos documentos o de modificar las clases, deberá volver a entrenar el clasificador.