Pular para o conteúdo principal
Ao extrair dados de documentos semiestruturados, o Advanced Designer é utilizado para conjuntos complexos (por exemplo, aqueles que incluem muitas variantes de documentos bastante diferentes). O fluxo de processamento incluirá atividades voltadas à extração de dados de documentos semiestruturados.

Novas variantes de documentos podem surgir após o desenvolvimento

Suponha que você precise processar documentos do mesmo tipo com diferentes layouts e não consiga fornecer todas as variantes durante o desenvolvimento da Skill. Isso pode ocorrer ao criar uma Skill para processar faturas de diversos fornecedores. Normalmente, cada fornecedor terá seu próprio modelo de fatura, e é certo que novos modelos aparecerão no futuro. Se você tiver uma quantidade suficiente de amostras de documentos, poderá usar uma atividade de Deep Learning seguida da atividade de Fast Learning. A atividade de Deep Learning ficará responsável por processar variantes de documentos inesperadas, enquanto a atividade de Fast Learning aprenderá as variantes específicas de documentos fornecidas pelo cliente, resultando em uma qualidade ainda maior para esses documentos. A atividade de Fast Learning também pode ser treinada por meio do loop de feedback de Online Learning a partir da revisão manual. Deep Learning with Fast Learning

Etapas para criar uma Skill de Documento

  1. Abra o Advanced Designer. Crie uma nova Skill clicando em Create Document Skill na página inicial.
  2. Use a guia Documents que será aberta para enviar documentos que serão usados na configuração da sua Skill.
  3. Depois de enviar as imagens, acesse a guia Fields e defina a estrutura de campos da Skill, criando e configurando os campos que serão extraídos pela Skill. Rotule os documentos na seção Reference.
  4. Vá até a guia Activities e adicione uma atividade Deep Learning para documentos semiestruturados ao fluxo de processamento do documento.
  5. Abra o Activity Editor para configurar e treinar a atividade de Deep Learning. Lembre-se de que o conjunto de documentos usado para treinar essa atividade deve conter pelo menos 100 documentos rotulados.
  6. Volte à guia Activities e adicione uma atividade Fast Learning ao fluxo de processamento do documento.
  7. Abra o Activity Editor para configurar e treinar a atividade.
  8. Teste sua Skill clicando em Test Skill Using Selected Documents e analise os resultados obtidos.
  9. Quando os resultados dos testes forem satisfatórios, publique sua Skill.

Alguns documentos contêm estruturas que não podem ser extraídas com aprendizado de máquina

Suponha que a maioria das variantes de documentos do seu conjunto possa ser tratada com as atividades Deep Learning e Fast Learning. Ainda assim, alguns documentos podem ter tabelas aninhadas ou ser, de alguma forma, completamente diferentes de todos os demais usados no treinamento. Para lidar com esses documentos, você precisa separá-los do conjunto principal usando a atividade Classification:
  • Use a atividade Classify By Company se as variantes de documentos forem emitidas por empresas diferentes e o nome e/ou o endereço da empresa estiverem impressos no documento. Por exemplo, ao processar extratos bancários de diferentes bancos, você pode facilmente fornecer uma lista dessas instituições em um banco de dados, contemplando todas as variantes que devem ser tratadas separadamente.
  • Use a atividade Classify By Text and Image nos demais casos. Essa tecnologia de classificação multimodal utiliza texto, estrutura espacial e padrões de imagem para distinguir diferentes variantes de documentos entre si, reconhecendo com facilidade as variantes que fogem ao padrão.
Use uma atividade IF para ramificar o fluxo de processamento e separar variantes de documentos com baixa qualidade de processamento (por exemplo, como mencionado anteriormente, documentos com tabelas aninhadas) e, em seguida, use uma atividade Extraction Rules para extrair campos e tabelas específicas desses documentos. IF with Deep Learning and Extraction Rules

Etapas para criar uma Skill de Documento

  1. Abra o Advanced Designer. Crie uma nova Skill clicando em Create Document Skill na página inicial.
  2. Use a guia Documents que será aberta para fazer upload dos documentos que serão usados na configuração da sua Skill. Para garantir que seu conjunto de documentos seja suficiente para configurar um classificador, adicione um número aproximadamente igual de documentos para cada variante.
  3. Depois de enviar suas imagens, vá até a guia Fields e defina a estrutura de campos da Skill criando e configurando os fields que serão extraídos pela Skill. Rotule os documentos na seção Reference.
  4. Vá para a guia Activities e adicione uma atividade Classify ao fluxo de processamento do documento.
  5. Abra o Activity Editor e configure a atividade Classify. Para isso, crie uma classe correspondente para cada variante, atribua essas classes aos seus documentos e treine a atividade.
  6. Volte para a guia Activities e configure a ramificação condicional do fluxo de processamento adicionando uma atividade IF, além de atividades separadas para processar cada variante de documento.
  7. Configure as atividades que você criou.
  8. Teste sua Skill clicando em Test Skill Using Selected Documents e analise os resultados obtidos.
  9. Quando os resultados dos testes forem satisfatórios, publique sua Skill.

Você não tem documentos suficientes para usar Machine Learning

Suponha que você precise extrair dados de um pequeno número de variantes de documento, mas não tenha documentos suficientes para treinar uma atividade de Deep Learning; ainda assim, você dispõe de algum conhecimento especializado que permite descrever os princípios essenciais de extração de dados para cada variante. Por exemplo, se estiver criando uma Skill para processar formulários fiscais de diferentes anos, você pode dividir todos os seus documentos em variantes usando uma atividade Classify. Em seguida, utilize um conjunto de atividades Extraction Rules, em que cada atividade é ajustada a uma variante específica de documento. Adicione uma Fast Learning activity se quiser que o Vantage continue treinando sua Skill. Multiple Extraction Rules

Etapas para criar uma Skill de Documento

  1. Abra o Advanced Designer. Crie uma nova Skill clicando em Create Document Skill na página inicial.
  2. Use a guia Documents que será aberta para fazer upload dos documentos que serão usados na configuração da sua Skill. Para garantir que seu conjunto de documentos seja suficiente para configurar um classificador, adicione uma quantidade aproximadamente igual de documentos para cada variante.
  3. Depois de enviar suas imagens, vá até a guia Fields e defina a estrutura de campos da Skill criando e configurando os campos que serão extraídos pela Skill. Rotule os documentos na seção Reference.
  4. Acesse a guia Activities e adicione uma atividade Classify ao fluxo de processamento do documento.
  5. Abra o Activity Editor e configure a atividade Classify. Para isso, crie uma classe correspondente para cada variante, atribua essas classes aos seus documentos e treine a atividade.
  6. Volte para a guia Activities e crie uma atividade Extraction Rules. Adicione outras atividades Extraction Rules a este item de workflow. Defina condições de ramificação selecionando o campo preenchido pela atividade Classify e mapeando seus valores para as atividades Extraction Rules. Você também pode pular esta etapa para documentos de determinadas classes que não exigem regras de extração especiais.
  7. Configure as atividades de extração que você criou.
  8. Teste sua Skill clicando em Test Skill Using Selected Documents e analise os resultados obtidos.
  9. Quando os resultados dos testes forem satisfatórios, publique sua Skill.