Pular para o conteúdo principal
O ABBYY Vantage oferece um modo de aprendizado de máquina para processar documentos estruturados, por exemplo, documentos em que a localização dos campos é a mesma em cada instância. Exemplos incluem questionários, formulários de inscrição e declarações de imposto de renda. Alguns documentos estruturados podem ter várias variantes, com pequenas diferenças nos campos e em suas localizações.

Imagens de exemplo

IRS Form 1040 - 2020 IRS Form 1040 - 2019 Duas variantes do Form 1040 do IRS para os anos de 2020 e 2019.

Criando Skills para documentos estruturados

Você pode criar skills para processar documentos estruturados tanto no Vantage quanto no Advanced Designer. Porém, para editar essas skills, é necessário usar o Advanced Designer. No Vantage, você pode criar uma skill para processar documentos estruturados ativando a opção Fixed-form documents dessa skill. Você também precisará enviar e rotular alguns formulários em branco.
Observação: Para obter instruções detalhadas sobre como criar uma skill para processar documentos estruturados com várias variantes, consulte Configurar uma Skill de Documento para processar documentos estruturados.
A skill que você criar no Vantage aparecerá no Advanced Designer. O fluxo de processamento de documentos incluirá uma atividade Forms projetada especificamente para processar documentos estruturados.
Observação: Se você não ativar a opção Fixed-form documents, o fluxo de processamento de documentos da sua skill consistirá apenas na atividade Fast Learning.
No Advanced Designer, você pode criar e editar skills para documentos estruturados quando precisar combinar o processamento de documentos estruturados com outras tecnologias do Vantage. Nesse caso, uma atividade Forms precisa ser acompanhada por outras atividades criadas e configuradas no Advanced Designer.
Observação: Se o seu fluxo de processamento de documentos incluir uma atividade Forms acompanhada por outras atividades, ou se contiver várias atividades Forms, suas opções de edição no Vantage serão limitadas à alteração das propriedades da skill, e o treinamento não estará disponível. Para edições mais avançadas, use o Advanced Designer.

Extraindo dados de formulários com elementos não estruturados ou estruturas mistas

Um documento estruturado pode, às vezes, conter um elemento não estruturado, como um código de barras ou um carimbo posicionado em qualquer lugar do documento, que também precisa ser detectado. Outro exemplo é um documento misto: uma parte é estruturada, enquanto outra é uma tabela de comprimento variável (por exemplo, com um número variável de linhas). Para processar esses documentos, use uma atividade Forms seguida de uma atividade que trate os elementos não estruturados. Nas etapas abaixo, usamos uma atividade Forms para processar campos estruturados e uma atividade Extraction Rules para detectar códigos de barras.

Etapas para criar uma Skill de Documento

  1. Abra o Advanced Designer. Na página inicial, crie uma nova Skill clicando em Create Document Skill.
  2. Acesse a guia Activities e adicione uma atividade Forms ao fluxo de processamento do documento.
  3. Clique em Activity Editor. Na guia Blank Form, envie um formulário em branco de exemplo para cada variante do seu documento (não recomendamos enviar mais de 10 variantes diferentes). Rotule os campos dos quais os dados devem ser extraídos. Para diretrizes de rotulagem, consulte Labeling documents.
  4. Clique em Train Activity.
  5. Clique na guia Test Set e envie documentos de teste preenchidos. Verifique se todos os campos estão rotulados corretamente em cada documento. Clique em Test Activity. Quando a operação for concluída, revise os resultados.
  6. Volte para a guia Activities e adicione uma atividade Extraction Rules ao fluxo de processamento do documento.
  7. Clique em Activity Editor e configure a atividade Extraction Rules.
  8. Clique em Test Skill Using Selected Documents. Quando a operação for concluída, revise os resultados. Se estiver satisfeito com os resultados, publique sua Skill. Caso contrário, ajuste a rotulagem e, em seguida, treine e teste a atividade novamente.

Trabalhando com Tabelas e Grupos Repetidos

Ao processar documentos estruturados, o Vantage pode lidar com tabelas e grupos repetidos se o número máximo de linhas da tabela ou instâncias do grupo for conhecido antecipadamente e os limites da tabela ou do grupo forem fixos. Você precisará rotular todas as linhas que possam ocorrer em todas as variantes do formulário.
Observação: Somente as linhas com dados serão exibidas nos resultados do processamento. Linhas vazias serão ignoradas.
Se o número de linhas ou instâncias em um grupo não for conhecido antecipadamente, você deve usar outra tecnologia do Vantage.
Observação: No momento, apenas tabelas com valores de texto podem ser processadas. Se sua tabela tiver colunas com caixas de seleção ou códigos de barras, use um grupo repetido.

Extraindo dados de formulários e documentos não estruturados em um único fluxo

Às vezes, as informações podem ser coletadas tanto por meio de formulários quanto de documentos não estruturados. Por exemplo, as respostas a um questionário podem ser recebidas em formulários impressos ou como documentos não estruturados, escritos de forma livre. Para processar uma combinação desses documentos, use uma atividade Forms para processar formulários e uma atividade Fast Learning ou Extraction Rules para processar documentos não estruturados. Em seguida, aplique uma atividade Classify para separar os formulários dos documentos não estruturados.

Etapas para criar uma Skill de Documento

  1. Abra o Advanced Designer. Na página inicial, crie uma nova skill clicando em Create Document Skill.
  2. Acesse a guia Activities e adicione uma atividade Forms ao fluxo de processamento de documentos.
  3. Clique em Activity Editor. Na guia Blank Form, envie (faça upload de) um formulário em branco de exemplo e rotule os campos dos quais os dados devem ser extraídos. Para diretrizes de rotulagem, consulte Labeling documents.
  4. Clique em Train Activity.
  5. Clique na guia Test Set e envie (faça upload de) documentos de teste preenchidos. Verifique se todos os campos estão rotulados corretamente em cada documento. Clique em Test Activity. Quando a operação for concluída, revise os resultados.
  6. Acesse a guia Activities e adicione uma atividade Fast Learning ao fluxo de processamento de documentos.
  7. Abra o Activity Editor para configurar e treinar a atividade.
  8. Acesse a guia Activities e adicione uma atividade Classify no início do fluxo de processamento de documentos.
  9. Clique em Activity Editor e configure a atividade Classify. Você precisará criar uma classe para cada variante de documento, atribuir classes aos seus documentos e treinar a atividade.
  10. Volte à guia Activities e adicione uma atividade IF para configurar ramificações condicionais no fluxo de processamento de documentos. Conecte essa atividade às atividades Forms e Fast Learning.
  11. Clique em Test Skill Using Selected Documents. Quando a operação for concluída, revise os resultados. Se estiver satisfeito com os resultados, publique sua skill. Caso contrário, ajuste a rotulagem e treine a atividade novamente.