Cree Skills de documento para extraer datos de documentos estructurados, semiestructurados y no estructurados
Para extraer datos de documentos, cree una Skill de documento.El escenario y las tecnologías involucradas (disponibles como actividades) dependen en gran medida de la estructura de los documentos que va a procesar. En general, los documentos pueden clasificarse en los siguientes tipos:
Los documentos estructurados (también conocidos como formularios fijos) siempre contienen la misma información y presentan el mismo diseño o un número muy limitado de variantes. Ejemplos de documentos estructurados incluyen formularios, cuestionarios y encuestas.
Los documentos semiestructurados suelen contener la misma información, pero la ubicación, el tamaño y la cantidad de campos pueden variar de un documento a otro, lo que dificulta la extracción de datos. Vantage se basa en las relaciones espaciales y lógicas entre ciertos elementos y campos para ubicar y extraer los datos necesarios. Entre los ejemplos de documentos semiestructurados se incluyen las facturas, las órdenes de pago y los conocimientos de embarque.Si su conjunto de documentos está compuesto por documentos estructurados o semiestructurados, consulte los escenarios en las secciones Procesamiento de documentos estructurados y Procesamiento de documentos semiestructurados.
Los documentos no estructurados constan de texto libre dividido en párrafos y oraciones que contienen datos que deben extraerse. En algunos documentos no estructurados, un campo puede continuar en la página siguiente. Ejemplos de documentos no estructurados incluyen contratos, correos electrónicos y artículos de investigación.Si su conjunto de documentos está compuesto por documentos no estructurados, consulte los escenarios en la sección Procesamiento de documentos no estructurados.
Si su conjunto de documentos incluye documentos semiestructurados y no estructurados, o si sus documentos pueden contener tanto contenido semiestructurado como no estructurado (por ejemplo, párrafos de texto sin formato alternando con tablas), consulte los escenarios en la sección Procesamiento de conjuntos de documentos mixtos y documentos de estructura mixta.