Entrenamiento de modelos de NLP basado en los comentarios de los operadores de verificación

La calidad de la extracción de datos puede mejorarse mediante el entrenamiento adicional de modelos de NLP por parte de los operadores. Si el programa no detecta determinados campos o confunde un campo con otro, el operador de verificación puede indicar cuál es el campo correcto y volver a entrenar el modelo de NLP. A continuación, el programa usará el modelo reentrenado para extraer los datos con mayor precisión.

El entrenamiento adicional no está disponible para los modelos de NLP cargados en Definiciones de Document.

Hay dos formas de iniciar el entrenamiento de un modelo de NLP durante la verificación. Puede:

Agregar una etapa de entrenamiento después de la etapa de verificación. El entrenamiento comenzará cuando se cumplan las condiciones especificadas para el lote de entrenamiento. Para obtener más información sobre cómo configurar etapas del workflow, consulte Configuración del workflow.
Enviar manualmente documentos a la etapa de entrenamiento. Para ello, haga clic con el botón derecho en el documento del lote de trabajo y seleccione Train en el menú contextual.

En general, el procedimiento de entrenamiento es el siguiente:

Cuando se inicia el entrenamiento, ABBYY FlexiCapture crea automáticamente un lote de entrenamiento genérico en la lista de lotes de entrenamiento (si aún no existe). Todos los documentos relacionados con una Definición de Document específica se copiarán en este lote, independientemente de su variante.
A cada documento se le asigna el estado For training o For testing.
Los documentos marcados como For training se usan para el entrenamiento. Como resultado, se crea un nuevo modelo de NLP.
El nuevo modelo creado durante el entrenamiento se prueba después con los documentos marcados como For testing.
Si el rendimiento general del nuevo modelo no es inferior al del modelo existente, el modelo existente será sustituido por el nuevo. De lo contrario, el nuevo modelo será rechazado.

Durante el procesamiento de documentos, puede ocurrir que, en algunos documentos, la ubicación de los campos difiera significativamente, aunque contengan conjuntos de campos idénticos. Para mejorar la calidad del reconocimiento de estos documentos, cree lotes de entrenamiento independientes para cada variante de documento. Creación de un lote de entrenamiento para la extracción de campos de un proveedor o variante específicos Para entrenar documentos que proceden de un Proveedor específico o pertenecen a una variante determinada, debe crearse un nuevo lote. Proceda de la siguiente manera:

En Project Setup Station, abra el proyecto con el modelo de NLP. Para obtener más información sobre la configuración de un modelo de NLP, consulte Creación de modelos de NLP.
Vaya a Field Extraction Training Batches seleccionando Fields Training > Open Field Extraction Training Batches. Como alternativa, puede usar la combinación de teclas Ctrl + Alt + B, o seleccionar Field Extraction Training Batches en el menú contextual.
Cree un nuevo lote seleccionando Archivo > New Batch. Como alternativa, puede usar la combinación de teclas Ctrl + N. Elija la Definición de Document y la variante adecuadas y, a continuación, seleccione la opción NLP Batch en el menú contextual.
Agregue sus documentos, reconózcalos, edite el orden de las secciones e inicie el entrenamiento seleccionando Train en el menú contextual. Como alternativa, puede usar la combinación de teclas Ctrl + F7 o hacer clic en el botón Train Batch de la Toolbar.

La calidad de un modelo de NLP entrenado depende del número de documentos del lote de entrenamiento y de la calidad de su marcado. Tenga en cuenta lo siguiente:

Todos los campos descritos por la Definición de Document deben estar marcados en los documentos de entrenamiento.
Se recomienda tener entre 100 y 500 documentos en cada lote de entrenamiento. Esta cantidad de documentos permitirá al programa seleccionar los mejores parámetros para su modelo de NLP sin ralentizar el proceso de entrenamiento.

Cuando se usan los comentarios de los operadores para el entrenamiento, se agregarán nuevos documentos tanto al lote de entrenamiento como al lote de variantes.

Para una variante con un lote de entrenamiento existente, se utilizará el modelo de NLP creado para ese lote en particular.
Para todas las demás variantes, se utilizará el modelo de NLP creado para el lote de entrenamiento genérico.

Si a un lote de entrenamiento se agrega, desde el mismo origen, un documento idéntico a otro que ya está presente en él, el documento nuevo reemplazará al anterior. Esto también se registrará en el registro de tareas en segundo plano de la tarea de entrenamiento. El programa usa los parámetros de registro del documento para determinar si un documento es o no una copia de otro ya existente. Después de crear el lote, puede especificar opciones adicionales. Para ello, seleccione Mostrar configuración del lote de NLP… Las siguientes opciones adicionales se pueden especificar en el cuadro de diálogo Configuración del lote de entrenamiento:

Número máximo de documentos en cada lote de entrenamiento Si se alcanza el número máximo de documentos, los documentos nuevos que se agreguen a un lote de entrenamiento reemplazarán a los documentos antiguos.
Porcentaje máximo de documentos reemplazados Indica el porcentaje de documentos antiguos que pueden sustituirse por documentos nuevos durante una sesión de entrenamiento. Los documentos que se hayan enviado a la etapa de entrenamiento pero no se hayan incluido en el lote no se usarán para entrenar el nuevo modelo de NLP.
Iniciar el entrenamiento si el lote contiene más de __ documentos nuevos o más de __ % de documentos nuevos El entrenamiento comenzará cuando se cumpla al menos una de las siguientes condiciones: que el número de documentos nuevos agregados a un lote de entrenamiento sea mayor que el valor especificado, o que el porcentaje de documentos nuevos con respecto al número total de documentos del lote sea igual o superior al valor especificado. De lo contrario, el entrenamiento no se iniciará y se agregará una entrada en el registro de tareas en segundo plano indicando que no hay suficientes documentos nuevos para iniciar el entrenamiento.
Porcentaje de documentos que se usarán para el entrenamiento Especifica el porcentaje de documentos marcados como For testing y For training. Por ejemplo, si limita el porcentaje de documentos “For training” al 70 %, el 30 % restante se marcará como “For testing”.

Estadísticas de entrenamiento Una vez finalizado el entrenamiento, se pueden exportar estadísticas de un modelo de NLP. Esto incluye lo siguiente:

Información sobre la configuración del lote de entrenamiento.
Información sobre los modelos de NLP nuevo y antiguo.
Tiempo de entrenamiento.
La versión del componente de NLP utilizada para entrenar el modelo de NLP.
Estadísticas de entrenamiento de documentos y campos.
Información sobre la vigencia de los datos exportados. Si el parámetro isActual es false, el lote se modificó después del entrenamiento y de la creación de un nuevo modelo de NLP: es posible que se hayan agregado o eliminado documentos, que haya cambiado el marcado de los documentos, etc. Para obtener estadísticas actualizadas, el entrenamiento debe iniciarse de nuevo.

Para exportar el registro de un lote de entrenamiento, haga clic con el botón derecho en el lote, haga clic en Exportar estadísticas de extracción de campos… en el menú contextual y especifique dónde desea guardar el archivo CSV.