Pular para o conteúdo principalUma Skill de Documento permite extrair valores de campos de documentos estruturados e semiestruturados de um único tipo. Documentos do mesmo tipo têm exatamente o mesmo conjunto de campos e regras de validação, bem como a mesma estrutura; por exemplo, faturas, contratos e listas de remessa são três tipos de documentos.
Documentos estruturados são formulários nos quais a localização dos campos é a mesma em cada instância do documento. Exemplos de documentos estruturados incluem questionários, formulários de inscrição e declarações de imposto de renda.
Dica: Você também pode criar e editar skills para documentos estruturados no Advanced Designer quando precisar combinar o processamento desses documentos com outras tecnologias do Vantage.
Documentos semiestruturados têm um conjunto específico de campos cujos rótulos, quantidade e posicionamento variam de documento para documento do mesmo tipo. Um exemplo típico são as faturas emitidas por diferentes empresas, que variam no número e na formatação dos Itens. Cada fatura terá o número da fatura e o Total impressos, mas a localização exata dessas informações varia de fatura para fatura.
Para começar a treinar sua Skill de Documento, rotule os campos em um documento. À medida que você treina sua skill, o programa começará a sugerir automaticamente os locais dos campos para facilitar o processo de rotulagem.
Nota: No momento, apenas um arquivo pode ser processado por uma Skill de Documento como parte de uma única transação. Se você precisar processar vários arquivos, use a atividade Extract da Skill de Processo.
Variantes de tipo de documento
Documentos de um mesmo tipo quase sempre têm conjuntos idênticos de campos, regras de validação e estrutura. As variantes de um único tipo de documento podem diferir ligeiramente, dependendo, por exemplo, do ano em que o documento foi emitido.
Documentos de um mesmo tipo podem ser processados por uma única Skill de Documento treinada com diferentes variantes desse tipo de documento. Vantage e Advanced Designer podem lidar com qualquer número de variantes dentro de um único tipo de documento:
- Para centenas de variantes, skills treinadas usando o Online Learning no Vantage conseguirão extrair dados quase perfeitamente.
- Para milhares de variantes, skills treinadas usando a atividade Deep Learning conseguirão extrair dados com precisão de aproximadamente 80% a 90%, dependendo da complexidade dos tipos de documento.
- Para as variantes mais essenciais de um tipo de documento, skills treinadas usando as atividades Fast Learning e/ou Extraction Rules garantirão a extração precisa de dados de documentos complexos.
- Para documentos estruturados, que sempre têm o mesmo tipo de informação nas mesmas localizações exatas, recomendamos usar até 10 variantes. Se um formulário fixo tiver muitas variantes, recomendamos tratá-las todas como tipos de documento diferentes.
Ao treinar e testar uma skill, recomendamos o seguinte:
- Ao treinar uma skill, use um conjunto de documentos representativo contendo pelo menos 2 a 3 documentos de cada variante. Se houver muitas variantes e o conjunto não contiver pelo menos um documento de cada variante, você pode usar a atividade Deep Learning. Ela entende padrões de imagem, a estrutura espacial dos documentos, o conteúdo dos campos e os rótulos ao redor e pode processar variantes que não foram usadas no treinamento.
- Ao testar uma skill, use uma distribuição de documentos semelhante à do fluxo real de documentos em produção: a porcentagem de documentos de uma variante específica no conjunto de treinamento deve ser representativa da frequência com que a variante aparece no seu fluxo de documentos. Isso garantirá que a estimativa de precisão seja válida. Para isso, teste as skills usando uma amostra aleatória de documentos do fluxo real de documentos em produção.
- Uma amostra de variante é melhor do que nenhuma amostra.