Saltar al contenido principalUna Skill de documento le permite extraer valores de campos de documentos estructurados y semiestructurados de un único tipo. Los documentos del mismo tipo tienen exactamente el mismo conjunto de campos y Reglas de Validación, así como la misma estructura; por ejemplo, las facturas, los contratos y las listas de envío son tres tipos de documentos.
Los documentos estructurados son formularios en los que la ubicación de los campos es la misma en cada instancia del documento. Entre los ejemplos de documentos estructurados se incluyen los cuestionarios, los formularios de solicitud y los formularios de declaración de impuestos.
Tip: También puede crear y editar skills para documentos estructurados en Advanced Designer cuando necesite combinar el procesamiento de documentos estructurados con otras tecnologías de Vantage.
Los documentos semiestructurados cuentan con un conjunto específico de campos cuyo etiquetado, número y ubicación varían de un documento a otro del mismo tipo. Un ejemplo típico son las facturas emitidas por distintas empresas, que difieren en el número y el formato de las Partidas. Cada factura tendrá impreso un Número de factura y el Total, pero la ubicación exacta de esta información variará de una factura a otra.
Para comenzar a entrenar su Skill de documento, etiquete los campos en un documento. A medida que entrene su skill, el programa comenzará a sugerir automáticamente ubicaciones de campos para agilizar el proceso de etiquetado.
Nota: Actualmente, solo se puede procesar un archivo con una Skill de documento como parte de una única transacción. Si necesita procesar varios archivos, use la actividad Extract de la Habilidad de proceso.
Variantes del tipo de documento
Los documentos de un mismo tipo casi siempre tienen conjuntos idénticos de campos, Reglas de Validación y estructura. Las variantes de un mismo tipo de documento pueden diferir ligeramente, dependiendo, por ejemplo, del Año en que se emitió el documento.
Los documentos de un mismo tipo pueden procesarse con una única Skill de documento entrenada usando diferentes variantes de ese tipo de documento. Vantage y Advanced Designer pueden manejar cualquier número de variantes dentro de un mismo tipo de documento:
- Para cientos de variantes, las skills entrenadas mediante Online Learning en Vantage podrán extraer datos casi a la perfección.
- Para miles de variantes, las skills entrenadas mediante la actividad Deep Learning podrán extraer datos con una precisión de aproximadamente el 80% al 90%, según la complejidad de los tipos de documento.
- Para las variantes más esenciales de un tipo de documento, las skills entrenadas mediante las actividades Fast Learning y/o Extraction Rules garantizarán una extracción precisa de datos de documentos complejos.
- Para documentos estructurados, que siempre tienen el mismo tipo de información en exactamente las mismas ubicaciones, recomendamos usar hasta 10 variantes. Si un formulario fijo tiene muchas variantes, recomendamos tratarlas todas como tipos de documento diferentes.
Al entrenar y probar una skill, recomendamos lo siguiente:
- Al entrenar una skill, use un conjunto de documentos representativo que contenga al menos 2 o 3 documentos de cada variante. Si hay muchas variantes y el conjunto no contiene al menos un documento de cada una, puede usar la actividad Deep Learning. Esta entiende patrones de imagen, la estructura espacial de los documentos, el contenido de los campos y las etiquetas circundantes, y puede procesar variantes que no se usaron para el entrenamiento.
- Al probar una skill, use una distribución de documentos similar a la del flujo real en producción: el porcentaje de documentos de una variante específica en el conjunto de entrenamiento debe ser representativo de la frecuencia con la que la variante aparece en su flujo de documentos. Esto garantizará que la estimación de precisión sea válida. Para lograrlo, pruebe las skills usando una muestra aleatoria de documentos del flujo real en producción.
- Una muestra de una variante es mejor que ninguna muestra.