Tip: También puede crear y editar skills para documentos estructurados en Advanced Designer cuando necesite combinar el procesamiento de documentos estructurados con otras tecnologías de Vantage.Los documentos semiestructurados cuentan con un conjunto específico de campos cuyo etiquetado, número y ubicación varían de un documento a otro del mismo tipo. Un ejemplo típico son las facturas emitidas por distintas empresas, que difieren en el número y el formato de las Partidas. Cada factura tendrá impreso un Número de factura y el Total, pero la ubicación exacta de esta información variará de una factura a otra. Para comenzar a entrenar su Skill de documento, etiquete los campos en un documento. A medida que entrene su skill, el programa comenzará a sugerir automáticamente ubicaciones de campos para agilizar el proceso de etiquetado.
Nota: Actualmente, solo se puede procesar un archivo con una Skill de documento como parte de una única transacción. Si necesita procesar varios archivos, use la actividad Extract de la Habilidad de proceso.
Variantes del tipo de documento
- Para cientos de variantes, las skills entrenadas mediante Online Learning en Vantage podrán extraer datos casi a la perfección.
- Para miles de variantes, las skills entrenadas mediante la actividad Deep Learning podrán extraer datos con una precisión de aproximadamente el 80% al 90%, según la complejidad de los tipos de documento.
- Para las variantes más esenciales de un tipo de documento, las skills entrenadas mediante las actividades Fast Learning y/o Extraction Rules garantizarán una extracción precisa de datos de documentos complejos.
- Para documentos estructurados, que siempre tienen el mismo tipo de información en exactamente las mismas ubicaciones, recomendamos usar hasta 10 variantes. Si un formulario fijo tiene muchas variantes, recomendamos tratarlas todas como tipos de documento diferentes.
- Al entrenar una skill, use un conjunto de documentos representativo que contenga al menos 2 o 3 documentos de cada variante. Si hay muchas variantes y el conjunto no contiene al menos un documento de cada una, puede usar la actividad Deep Learning. Esta entiende patrones de imagen, la estructura espacial de los documentos, el contenido de los campos y las etiquetas circundantes, y puede procesar variantes que no se usaron para el entrenamiento.
- Al probar una skill, use una distribución de documentos similar a la del flujo real en producción: el porcentaje de documentos de una variante específica en el conjunto de entrenamiento debe ser representativo de la frecuencia con la que la variante aparece en su flujo de documentos. Esto garantizará que la estimación de precisión sea válida. Para lograrlo, pruebe las skills usando una muestra aleatoria de documentos del flujo real en producción.
- Una muestra de una variante es mejor que ninguna muestra.
