Dica: Você também pode criar e editar skills para documentos estruturados no Advanced Designer quando precisar combinar o processamento desses documentos com outras tecnologias do Vantage.Documentos semiestruturados têm um conjunto específico de campos cujos rótulos, quantidade e posicionamento variam de documento para documento do mesmo tipo. Um exemplo típico são as faturas emitidas por diferentes empresas, que variam no número e na formatação dos Itens. Cada fatura terá o número da fatura e o Total impressos, mas a localização exata dessas informações varia de fatura para fatura. Para começar a treinar sua Skill de Documento, rotule os campos em um documento. À medida que você treina sua skill, o programa começará a sugerir automaticamente os locais dos campos para facilitar o processo de rotulagem.
Nota: No momento, apenas um arquivo pode ser processado por uma Skill de Documento como parte de uma única transação. Se você precisar processar vários arquivos, use a atividade Extract da Skill de Processo.
Variantes de tipo de documento
- Para centenas de variantes, skills treinadas usando o Online Learning no Vantage conseguirão extrair dados quase perfeitamente.
- Para milhares de variantes, skills treinadas usando a atividade Deep Learning conseguirão extrair dados com precisão de aproximadamente 80% a 90%, dependendo da complexidade dos tipos de documento.
- Para as variantes mais essenciais de um tipo de documento, skills treinadas usando as atividades Fast Learning e/ou Extraction Rules garantirão a extração precisa de dados de documentos complexos.
- Para documentos estruturados, que sempre têm o mesmo tipo de informação nas mesmas localizações exatas, recomendamos usar até 10 variantes. Se um formulário fixo tiver muitas variantes, recomendamos tratá-las todas como tipos de documento diferentes.
- Ao treinar uma skill, use um conjunto de documentos representativo contendo pelo menos 2 a 3 documentos de cada variante. Se houver muitas variantes e o conjunto não contiver pelo menos um documento de cada variante, você pode usar a atividade Deep Learning. Ela entende padrões de imagem, a estrutura espacial dos documentos, o conteúdo dos campos e os rótulos ao redor e pode processar variantes que não foram usadas no treinamento.
- Ao testar uma skill, use uma distribuição de documentos semelhante à do fluxo real de documentos em produção: a porcentagem de documentos de uma variante específica no conjunto de treinamento deve ser representativa da frequência com que a variante aparece no seu fluxo de documentos. Isso garantirá que a estimativa de precisão seja válida. Para isso, teste as skills usando uma amostra aleatória de documentos do fluxo real de documentos em produção.
- Uma amostra de variante é melhor do que nenhuma amostra.
