Pular para o conteúdo principalAs Skills de Documento são usadas para extrair valores de campos de diferentes tipos de documentos: documentos estruturados (como formulários fiscais ou formulários de inscrição), documentos semiestruturados (por exemplo, faturas, pedidos ou conhecimentos aéreos) e documentos não estruturados (contratos, contratos de locação ou mensagens de e-mail).
As Skills de Documento podem ser criadas no ABBYY Vantage ou no Advanced Designer. Este último deve ser sua ferramenta de escolha se você precisar criar Skills de Documento complexas para documentos não padronizados, com layouts e estruturas de campos variados. O Advanced Designer também permite combinar diferentes tecnologias em suas Skills de Documento, adicionar NLP para processar documentos não estruturados ou impor condições ao processar diferentes tipos de documento (consulte Casos de uso para uma visão geral de cenários típicos).
Variantes de tipo de documento
Documentos do mesmo tipo quase sempre têm conjuntos idênticos de campos, regras de validação e estrutura. As variantes de um mesmo tipo de documento podem diferir ligeiramente, dependendo, por exemplo, do ano de emissão do documento.
Documentos do mesmo tipo podem ser processados por uma única Skill de Documento treinada em diferentes variantes desse tipo de documento. O Vantage e o Advanced Designer podem lidar com qualquer número de variantes dentro de um tipo de documento:
- Para centenas de variantes, skills treinadas com Online Learning no Vantage conseguirão extrair dados quase perfeitamente.
- Para milhares de variantes, skills treinadas com a atividade Deep Learning conseguirão extrair dados com precisão de aproximadamente 80% a 90%, dependendo da complexidade dos tipos de documento.
- Para as variantes mais importantes de um tipo de documento, skills treinadas com as atividades Fast Learning e/ou Extraction Rules garantirão a extração precisa de dados de documentos complexos.
- Para documentos estruturados, que sempre têm o mesmo tipo de informação exatamente nos mesmos locais, recomendamos usar até 10 variantes. Se um formulário fixo tiver muitas variantes, recomendamos tratá-las todas como tipos de documento diferentes. Para mais informações, consulte Processar documentos estruturados.
Treinamento e Teste de uma Skill de Documento
Para obter os melhores resultados de extração, recomendamos treinar e testar uma Skill de Documento usando três conjuntos de documentos diferentes:
- Conjunto de treinamento
- Conjunto de teste
- Conjunto cego (um conjunto de teste adicional que contém documentos de amostra que não estão incluídos em nenhum dos dois conjuntos acima)
Requisitos do conjunto de treinamento
Para um conjunto de treinamento, use um conjunto de documentos representativo contendo pelo menos 2–3 documentos de amostra para cada variante. Se houver muitas variantes e o conjunto não contiver pelo menos um documento de amostra de cada uma, considere usar a atividade Deep Learning. Essa atividade entende padrões de imagem, a estrutura dos documentos, o conteúdo dos fields e os rótulos ao redor e pode processar variantes que não foram usadas no treinamento.
O número de documentos de amostra para as atividades depende das tecnologias que você usa no seu Skill de Documento:
- Deep Learning activity for semi-structured documents:
- Para documentos de alta variabilidade, é necessário pelo menos 200–300 documentos de amostra (2–3 documentos de amostra por variante). Em geral, recomendamos ter cerca de 1.000 documentos no conjunto.
- Para documentos de baixa variabilidade, geralmente 100 documentos de amostra são suficientes.
- Segmentation activity:
- Para documentos de alta variabilidade, recomendamos ter pelo menos 100 documentos de amostra.
- Para documentos de baixa variabilidade, recomendamos ter pelo menos 20 documentos de amostra.
- Deep Learning for NLP activity:
- Para documentos de alta variabilidade, recomendamos ter pelo menos 300 documentos de amostra (2–3 amostras por variante).
- Para documentos de baixa variabilidade, recomendamos ter pelo menos 50 documentos de amostra.
Observação: Mesmo que você não tenha o número recomendado de documentos de amostra, ter um documento de amostra por variante é melhor do que não ter nenhum.
Requisitos do Conjunto de Teste
Para um conjunto de teste, a distribuição dos documentos de amostra deve ser semelhante à do fluxo real de documentos em produção. Isso garantirá que a estimativa de acurácia seja válida.
Por exemplo, se faturas de um determinado Fornecedor correspondem a 30% do fluxo de documentos em produção, cerca de 30% dos documentos de amostra no conjunto de teste devem ser desse Fornecedor. Você também pode atingir a proporção necessária testando sua skill em amostras aleatórias de documentos do fluxo de produção.
Requisitos para Conjunto Cego
Para um conjunto cego, certifique-se de usar documentos que ainda não tenham sido utilizados para treinar ou testar sua Skill. Os resultados de extração obtidos em um conjunto cego ajudarão você a avaliar a qualidade da sua Skill.
Observação: Certifique-se de usar documentos diferentes para treinar e testar sua Skill.
Configurando uma Skill de Documento
Depois de criar uma Skill de Documento na página inicial, siga estas etapas para configurar sua skill:
- Clique no botão de configurações ao lado do nome da skill para visualizar e ajustar as configurações da skill.
- Na guia Documents, carregue alguns documentos.
- Na guia Fields, marque os campos de dados dos quais os valores serão extraídos, especificando suas localizações.
- Na guia Activities, configure o fluxo de processamento do documento.
- Na guia Results, teste sua skill para avaliar o desempenho em documentos de exemplo.
- Na guia Publish, publique sua skill.
Após configurar e publicar sua Skill de Documento, ela ficará disponível no Skill Catalog no ABBYY Vantage.
No Skill Catalog, você pode visualizar e gerenciar suas skills, incluindo skills internas, skills de somente leitura e skills derivadas.