Pular para o conteúdo principal

Extraindo dados de um conjunto misto de documentos (semiestruturados e não estruturados)

Suponha que um único Skill de Documento precise processar documentos semiestruturados e não estruturados. Nesse caso, primeiro classifique os documentos nos tipos correspondentes usando a atividade Classify By Text and Image, que combina recursos textuais e geométricos, capaz de classificar até mesmo imagens de qualidade inferior e documentos de classes diferentes que só podem ser diferenciados por objetos gráficos, como assinaturas ou carimbos. Use uma atividade IF para ramificar o fluxo de processamento do documento e separar os documentos não estruturados dos semiestruturados. Cada ramificação pode ser processada com um dos cenários das seções Processing semi-structured documents e Processing unstructured documents. Por exemplo, documentos semiestruturados podem ser processados por uma atividade Fast Learning, enquanto documentos não estruturados podem ser processados por uma combinação de uma atividade Segmentation e uma atividade Deep Learning para NLP. Como os documentos descritos pertencem ao mesmo tipo, eles terão o mesmo conjunto de campos de saída. Fluxo de processamento de documentos misto

Etapas para criar uma Skill de Documento

  1. Abra o Advanced Designer. Crie uma nova skill clicando em Create Document Skill na página inicial.
  2. Use a guia Documents que será aberta para carregar os documentos que serão usados para configurar sua skill. Para garantir que seu conjunto de documentos seja suficiente para configurar um classificador, adicione um número aproximadamente igual de documentos para cada variante.
  3. Depois de carregar suas imagens, vá até a guia Fields e defina uma estrutura de field para a skill, criando e configurando os fields que serão extraídos pela skill. Rotule os documentos na seção Reference.
  4. Acesse a guia Activities e adicione uma atividade Classify ao fluxo de processamento do documento.
  5. Abra o Activity Editor e configure a atividade Classify. Para isso, crie uma classe correspondente para cada variante, atribua essas classes aos seus documentos e treine a atividade.
  6. Volte para a guia Activities e configure a ramificação condicional do fluxo de processamento adicionando uma atividade IF, além de atividades separadas para processar cada variante de documento.
  7. Configure e treine as atividades que você criou.
  8. Teste sua skill clicando em Test Skill Using Selected Documents e analise os resultados obtidos.
  9. Quando os resultados do teste forem satisfatórios, publique sua skill.

Extraindo texto de células de tabela em documentos semiestruturados

Suponha que você esteja extraindo dados de documentos semiestruturados com tabelas e precise capturar não apenas o texto de cada célula, mas também valores numéricos específicos embutidos no texto da célula. Por exemplo, se for necessário extrair informações sobre um tomador de um documento de Closing Disclosure, você pode usar uma atividade de Fast Learning, voltada para documentos semiestruturados, para extrair todo o texto da célula de tabela alvo e, em seguida, usar uma atividade para documentos não estruturados (Named Entities — NER — e Address Parsing, neste caso) para extrair o nome do tomador e parte do seu endereço a partir do conteúdo da célula alvo. Fast Learning com NER e Address Parsing

Etapas para criar uma Skill de Documento

  1. Abra o Advanced Designer. Crie uma nova skill clicando em Create Document Skill na página inicial.
  2. Use a guia Documents que será aberta para fazer upload dos documentos que serão usados para configurar sua skill.
  3. Depois de enviar suas imagens, vá até a guia Fields e defina a estrutura de campos da skill criando e configurando os campos que serão extraídos pela skill. Rotule os documentos na seção Reference.
  4. Acesse a guia Activities, crie uma atividade Fast Learning e especifique os campos que serão extraídos por essa atividade.
  5. Abra o Activity Editor, configure e treine a atividade Fast Learning.
  6. Volte à guia Activities, crie uma atividade Named Entities (NER) e especifique um campo de origem, bem como os campos que serão usados para armazenar as entidades nomeadas extraídas. Faça o mapeamento das entidades nomeadas para os campos selecionados.
  7. Se você tiver um campo que contenha um endereço e quiser dividi-lo em componentes, crie uma atividade Address Parsing e especifique um campo de origem, bem como os campos que serão usados para armazenar os componentes de endereço extraídos. Faça o mapeamento dos componentes de endereço para os campos selecionados.
  8. Teste sua skill clicando em Test Skill Using Selected Documents e analise os resultados obtidos.
  9. Quando os resultados dos testes estiverem satisfatórios, publique sua skill.

Extraindo dados de documentos não estruturados com tabelas, títulos, cabeçalhos e rodapés

Suponha que você precise extrair dados de documentos não estruturados (por exemplo, contratos) que contenham tabelas, títulos, cabeçalhos ou rodapés. Documento misto de exemplo Nesse caso, configure uma atividade Segmentation para detectar parágrafos contínuos de texto e uma atividade Extraction Rules para identificar inserções semiestruturadas. Depois que o fragmento de documento necessário for detectado, use as atividades apropriadas para extrair campos desses fragmentos.

Etapas para criar uma Skill de Documento

  1. Abra o Advanced Designer. Crie uma nova skill clicando em Create Document Skill na página inicial.
  2. Use a guia Documents que será aberta para fazer upload dos documentos que serão usados para configurar sua skill.
  3. Depois de enviar suas imagens, acesse a guia Fields e defina a estrutura de campos da skill criando e configurando os campos que serão extraídos pela skill. Rotule os documentos na seção Reference.
  4. Acesse a guia Activities, crie uma atividade de Segmentation e especifique os campos que serão usados para armazenar parágrafos de texto simples.
  5. Abra o Activity Editor, configure e treine a atividade de Segmentation.
  6. Volte para a guia Activities, crie uma atividade de Extraction Rules e especifique os campos que serão usados para armazenar dados de fragmentos semiestruturados do documento.
  7. Abra o Activity Editor, configure e teste a atividade de Extraction Rules.
  8. Teste sua skill clicando em Test Skill Using Selected Documents e analise os resultados obtidos.
  9. Quando os resultados dos testes forem satisfatórios, publique sua skill.