Crie Skills de Documento para extrair dados de documentos estruturados, semiestruturados e não estruturados
Para extrair dados de documentos, crie uma Skill de Documento.O cenário e as tecnologias envolvidas (disponíveis como atividades) dependem em grande medida da estrutura dos documentos que você vai processar. Em geral, os documentos podem ser categorizados nos seguintes tipos:
Documentos estruturados (também chamados de formulários fixos) sempre contêm as mesmas informações e apresentam o mesmo layout ou um número muito limitado de variações de layout. Exemplos de documentos estruturados incluem formulários, questionários e pesquisas.
Documentos semiestruturados geralmente contêm as mesmas informações, mas a localização, o tamanho e a quantidade de campos podem variar de um documento para outro, o que torna a extração de dados mais desafiadora. O Vantage se baseia nas relações espaciais e lógicas entre determinados elementos e campos para localizar e extrair os dados necessários. Exemplos de documentos semiestruturados incluem faturas, ordens de pagamento e conhecimentos de embarque.Se o seu conjunto de documentos for composto por documentos estruturados ou semiestruturados, confira os cenários nas seções Processamento de documentos estruturados e Processamento de documentos semiestruturados.
Documentos não estruturados são compostos por texto livre dividido em parágrafos e frases que contêm dados a serem extraídos. Em alguns documentos não estruturados, um campo pode se estender para a próxima página. Exemplos de documentos não estruturados incluem contratos, e-mails e artigos acadêmicos.Se o seu conjunto de documentos for composto por documentos não estruturados, confira os cenários na seção Processar documentos não estruturados.
Se o seu conjunto de documentos incluir documentos semiestruturados e não estruturados, ou se seus documentos puderem ter conteúdo semiestruturado e não estruturado (por exemplo, parágrafos de texto simples alternando com tabelas), confira os cenários na seção Processamento de conjuntos de documentos mistos e documentos de estrutura mista.