Saltar al contenido principalLas skills de documento se utilizan para extraer valores de campos de distintos tipos de documentos: documentos estructurados (como formularios de impuestos o formularios de solicitud), documentos semiestructurados (por ejemplo, facturas, órdenes de compra o guías aéreas) y documentos no estructurados (como contratos, contratos de arrendamiento o mensajes de correo electrónico).
Las skills de documento pueden crearse en ABBYY Vantage o en Advanced Designer. Este último debería ser su herramienta de elección si necesita crear skills de documento complejas para documentos no estándar con diseños y estructuras de campos variables. Advanced Designer también le permite combinar diferentes tecnologías en sus skills de documento, añadir NLP para el procesamiento de documentos no estructurados o imponer condiciones para procesar distintos tipos de documentos (consulte Casos de uso para obtener una visión general de los escenarios típicos).
Variantes de tipos de documento
Los documentos del mismo tipo casi siempre tienen conjuntos idénticos de campos, Reglas de Validación y estructura. Las variantes de un mismo tipo de documento pueden diferir ligeramente, por ejemplo, según el Año en que se emitió el documento.
Los documentos del mismo tipo pueden procesarse con una Skill de documento entrenada en distintas variantes de ese tipo. Vantage y Advanced Designer pueden gestionar cualquier número de variantes dentro de un tipo de documento:
- Para cientos de variantes, las skills entrenadas mediante Online Learning en Vantage podrán extraer datos casi a la perfección.
- Para miles de variantes, las skills entrenadas mediante la actividad Deep Learning podrán extraer datos con una precisión de aproximadamente el 80% al 90%, según la complejidad de los tipos de documento.
- Para las variantes más importantes de un tipo de documento, las skills entrenadas mediante las actividades Fast Learning y/o Extraction Rules garantizarán una extracción precisa de datos de documentos complejos.
- Para documentos estructurados, que siempre contienen el mismo tipo de información en exactamente las mismas ubicaciones, recomendamos usar hasta 10 variantes. Si un formulario fijo tiene muchas variantes, recomendamos tratarlas todas como tipos de documento diferentes. Para obtener más información, consulta Processing structured documents.
Entrenamiento y prueba de un Skill de documento
Para obtener los mejores resultados de extracción, recomendamos entrenar y probar un Skill de documento utilizando tres conjuntos de documentos:
- Conjunto de entrenamiento
- Conjunto de prueba
- Conjunto ciego (un conjunto de prueba adicional que contiene documentos de muestra que no están incluidos en ninguno de los dos conjuntos anteriores)
Requisitos del conjunto de entrenamiento
Para un conjunto de entrenamiento, use un conjunto de documentos representativo que contenga al menos 2 o 3 documentos de muestra por variante. Si hay muchas variantes y el conjunto no incluye al menos un documento de muestra de cada una, considere usar la actividad de Deep Learning. Esta actividad comprende patrones de imagen, la estructura de los documentos, el contenido de los campos y las etiquetas circundantes, y puede procesar variantes que no se usaron en el entrenamiento.
La cantidad de documentos de muestra para las actividades depende de las tecnologías que use en su Skill de documento:
- Deep Learning activity for semi-structured documents:
- Para documentos de alta variabilidad, se requieren al menos 200 o 300 documentos de muestra (2 o 3 documentos de muestra por variante). En general, recomendamos tener alrededor de 1,000 documentos en el conjunto.
- Para documentos de baja variabilidad, por lo general 100 documentos de muestra son suficientes.
- Segmentation activity:
- Para documentos de alta variabilidad, recomendamos tener al menos 100 documentos de muestra.
- Para documentos de baja variabilidad, recomendamos tener al menos 20 documentos de muestra.
- Deep Learning for NLP activity:
- Para documentos de alta variabilidad, recomendamos tener al menos 300 documentos de muestra (2 o 3 muestras por variante).
- Para documentos de baja variabilidad, recomendamos tener al menos 50 documentos de muestra.
Nota: Aunque no tenga la cantidad recomendada de documentos de muestra, contar con un documento de muestra por variante es mejor que no tener ninguno.
Requisitos del conjunto de prueba
Para un conjunto de prueba, la distribución de documentos de muestra debe ser similar a la del flujo real de documentos en producción. Esto garantizará que la estimación de precisión sea válida.
Por ejemplo, si las facturas de un Proveedor en particular representan el 30% del flujo de documentos en producción, alrededor del 30% de los documentos de muestra del conjunto de prueba deberían corresponder a ese Proveedor. También puedes lograr la proporción requerida probando tu skill con muestras aleatorias de documentos del flujo de producción.
Requisitos del conjunto ciego
Para un conjunto ciego, asegúrese de usar documentos que no se hayan utilizado previamente para entrenar o probar su Habilidad. Los resultados de extracción obtenidos en un conjunto ciego le ayudarán a evaluar la calidad de su Habilidad.
Nota: Asegúrese de usar documentos distintos para entrenar y probar su Habilidad.
Configuración de una Skill de documento
Después de crear una Skill de documento en la página de inicio, sigue estos pasos para configurar tu skill:
- Haz clic en el botón de configuración junto al nombre de la skill para ver y ajustar la configuración de la skill.
- En la pestaña Documentos, carga algunos documentos.
- En la pestaña Fields, etiqueta los campos de datos de los que se extraerán valores, especificando sus ubicaciones.
- En la pestaña Activities, configura el flujo de procesamiento del documento.
- En la pestaña Results, prueba tu skill para ver qué tan bien funciona con documentos de muestra.
- En la pestaña Publish, publica tu skill.
Después de configurar y publicar tu Skill de documento, estará disponible en el Skill Catalog de ABBYY Vantage.
En el Skill Catalog, puedes ver y administrar tus skills, incluidas las skills integradas, las skills de solo lectura y las skills derivadas.