Saltar al contenido principal

Consejos para mejorar los clasificadores

Si no está satisfecho con los resultados obtenidos con su clasificador, pruebe lo siguiente:
  • Compruebe si el perfil de clasificación seleccionado es el adecuado.
  • Ajuste la relación entre recall y precision.
  • Compruebe si las clases de referencia se han asignado correctamente.
  • Use un mayor número de documentos de muestra. Asegúrese de que su lote de entrenamiento incluya tantas variantes de documento como sea posible. Cuanto más grande y variado sea el lote de entrenamiento, más variantes de documento de la misma clase detectará el clasificador.

Confianza de la Definición de Document

Las secciones de la Definición de Document asignadas a clases de documento se emparejarán con sus secciones de documento con un determinado grado de confianza. Los nombres de las secciones de baja confianza se marcarán en rojo. Si la opción Confirmar automáticamente el tipo de sección al emparejar está habilitada y la sección de la Definición de Document asignada a la clase de documento seleccionada se ha emparejado correctamente, el nombre de la sección no se resaltará en rojo. En este caso, la clase se confirmará durante el emparejamiento de la Definición de Document, aunque inicialmente se haya determinado con baja confianza.
La opción Confirmar automáticamente el tipo de sección al emparejar se encuentra en la pestaña General de las propiedades de la sección de la Definición de Document. Seleccionar esta opción acelerará la verificación manual, pero solo debe seleccionarse para secciones que solo puedan emparejarse con documentos para los que se haya creado una Definición de Document determinada. Puede tratarse de una Definición de Document fija para una sección fija con identificadores, o de una sección de FlexiLayout que contenga elementos obligatorios. Los operadores no tendrán que confirmar manualmente esos emparejamientos. No recomendamos seleccionar esta opción para Definiciones de Document que puedan emparejarse con cualquier documento.
Si una Definición de Document se ha emparejado con una página o un documento con baja confianza, tiene las siguientes opciones:
  • Haga clic en el comando Confirm Document Definition del menú contextual de la página o del documento.
  • Modifique la página de baja confianza (por ejemplo, cambiando el tipo de sección o moviendo la página a otro documento).
  • Cambie la Definición de Document seleccionada para la página o el documento.
Una vez que un operador corrige todos los errores y ya no quedan secciones con Definiciones de Document emparejadas con baja confianza, el error “baja confianza” se eliminará automáticamente.
En el panel de errores, se notificará un error de ensamblado para los documentos con Definiciones de Document de baja confianza. Todos los documentos que tengan otros errores además de Definiciones de Document de baja confianza se envían a la etapa de verificación de ensamblado. Todos los documentos que no tengan otros errores aparte de una clasificación de baja confianza se envían a la etapa de verificación.

Detección de errores en el lote de entrenamiento del clasificador

Los errores de clasificación se deben principalmente a clases de referencia asignadas incorrectamente o a la falta de páginas de ejemplo en el lote de entrenamiento. Para detectar este tipo de errores, puede pedir al programa que busque páginas similares a una página mal clasificada. Para ello, haga clic con el botón derecho en una página mal clasificada y, a continuación, seleccione uno de los tres comandos siguientes en el menú contextual (también puede acceder a estos comandos desde el menú Entrenamiento de clasificación de la parte superior):
  • Mostrar páginas similares busca páginas similares en todo el lote, independientemente de la clase de referencia o de la clase de resultado de la página seleccionada.
  • Mostrar páginas similares de la clase de referencia busca páginas similares con la misma clase de referencia que la página seleccionada.
  • Mostrar páginas similares de la clase de resultado busca páginas similares con la misma clase de referencia que la clase de resultado de la página seleccionada.
El programa buscará páginas similares en todos los documentos, independientemente de su estado, tanto si están marcados como Para entrenamiento, Para pruebas o Sin usar.
Las páginas similares se mostrarán en orden descendente, de la más similar a la menos similar:

Ejemplo práctico

Supongamos que detecta una página mal clasificada en la matriz de confusión y que esta página tiene ID como clase de referencia y Invoice como clase de resultado. Abra la página mal clasificada haciendo clic en su celda de la matriz de confusión. Haga clic con el botón derecho en la página y, a continuación, haga clic en Mostrar páginas similares de la clase de resultado en el menú contextual (también puede acceder a este comando desde el menú Entrenamiento de clasificación de la parte superior). Esto mostrará todas las páginas del lote del clasificador similares a la página de ID, pero con Invoice especificado como clase de referencia. Las páginas se mostrarán en orden descendente, de la más similar a la menos similar. Ahora podrá identificar las páginas con clases de referencia asignadas incorrectamente que hicieron que la página de ID se clasificara como una factura. Cambie la clase de referencia cuando corresponda y vuelva a entrenar el clasificador. Al hacer clic en el comando Mostrar páginas similares de la clase de referencia, se comprobará si una página es única. Por ejemplo, puede usarse para comprobar si hay páginas de ID similares en el lote de entrenamiento que tengan ID especificado como clase de referencia. Si no se encuentran páginas de ID similares, añada la página problemática al lote de entrenamiento y vuelva a entrenar el clasificador. Al hacer clic en el comando Mostrar páginas similares, se mostrarán todas las páginas similares, independientemente de su clase de referencia o de resultado. Esto mostrará todas las páginas del lote del clasificador que sean similares a la página de pasaporte, pero para las que se hayan especificado clases de referencia distintas de ID. Cambie la clase de referencia cuando corresponda y vuelva a entrenar el clasificador.