Pular para o conteúdo principal
As skills para processar documentos não estruturados só podem ser criadas no Advanced Designer. O fluxo de processamento de documentos dessas skills incluirá atividades voltadas à extração de dados usando NLP. As atividades a seguir têm suporte a um número limitado de idiomas. Você pode consultar a lista de idiomas compatíveis com cada atividade em suas páginas correspondentes:
  • Atividade de Segmentação
  • Atividade de Deep Learning para NLP
  • Atividade de Entidades Nomeadas (NER)
  • Atividade de Análise de Endereço

Extraindo Entidades Nomeadas pré-treinadas de todo o documento

Suponha que você precise criar uma Skill de Documento para extrair nomes de empresas e endereços de documentos não estruturados, como cartas. Para extrair essas entidades, você pode configurar uma atividade de Named Entities (NER), projetada para extrair entidades nomeadas. Se o endereço precisar ser dividido em componentes como rua, cidade, estado, país e CEP, e extraído em campos diferentes, configure uma atividade de Address Parsing. Fluxo da atividade NER

Etapas para criar uma Skill de Documento

  1. Abra o Advanced Designer. Crie uma nova skill clicando em Create Document Skill na página inicial.
  2. Use a guia Documents que será aberta para fazer upload dos documentos que serão usados para configurar sua skill.
  3. Depois de enviar suas imagens, vá até a guia Fields e defina a estrutura de campos da skill, criando e configurando os campos que serão extraídos pela skill. Rotule os documentos na seção Reference.
  4. Acesse a guia Activities. Crie uma atividade de Named Entities (NER) e especifique os campos que serão usados para armazenar as entidades nomeadas extraídas. Mapeie as entidades nomeadas para os campos selecionados.
  5. Se você tiver um campo que contenha um endereço e quiser dividi-lo em componentes, crie uma atividade de Address Parsing e especifique os campos que serão usados para armazenar os componentes de endereço extraídos. Mapeie os componentes de endereço para os campos selecionados.
  6. Teste sua skill clicando em Test Skill Using Selected Documents e analise os resultados obtidos.
  7. Quando os resultados dos testes estiverem satisfatórios, publique sua skill.

Extraindo Entidades Nomeadas Pré-treinadas de Certos Parágrafos

Suponha que a entidade nomeada que você deseja extrair esteja sempre localizada no mesmo parágrafo. Por exemplo, se for preciso extrair um valor monetário de um parágrafo de preço de compra que faça parte de um contrato de compra e venda, primeiro use a atividade Segmentation para extrair o parágrafo-alvo e, em seguida, a atividade Named Entities (NER) para extrair o campo desejado. Os dados-alvo devem representar uma entidade nomeada compatível com uma atividade Named Entities (NER) ou Address Parsing, por exemplo, nomes, endereços e datas. Você também pode extrair o parágrafo-alvo usando as atividades Fast Learning e Extraction Rules. Para isso, primeiro certifique-se de que o trecho de texto seja extraído corretamente por uma atividade Fast Learning ou Extraction Rules e, em seguida, crie e configure uma atividade Named Entities (NER) ou Address Parsing. Se o parágrafo-alvo também contiver outras entidades nomeadas do mesmo tipo que não devem ser extraídas, consulte o seguinte caso de uso. Atividades pré-treinadas são um bom ponto de partida, pois são fáceis de configurar e não exigem treinamento. No entanto, uma rede neural treinada com seus documentos pode oferecer maior precisão de extração. Se você tem um conjunto de documentos extenso, talvez queira experimentar o próximo cenário e escolher aquele que apresenta melhor desempenho nos seus documentos. Segmentation with NER and Address Parsing

Etapas para criar uma Skill de Documento

  1. Abra o Advanced Designer. Crie uma nova skill clicando em Create Document Skill na página inicial.
  2. Use a guia Documents que será aberta para enviar os documentos que serão usados para configurar sua skill.
  3. Depois de enviar suas imagens, acesse a guia Fields e configure a estrutura de campos da skill criando e configurando campos que serão extraídos pela skill. Rotule os documentos na seção Reference.
  4. Vá para a guia Activities, crie uma atividade de Segmentation e especifique os campos que serão usados para armazenar os parágrafos de destino.
  5. Abra o Activity Editor, configure e treine a atividade de Segmentation.
  6. Volte para a guia Activities, crie uma atividade de Named Entities (NER) e especifique um campo de origem, bem como os campos que serão usados para armazenar as entidades nomeadas extraídas. Faça o mapeamento das entidades nomeadas para os campos selecionados.
  7. Se você tiver um campo que contenha um endereço e quiser dividir o endereço em componentes, crie uma atividade de Address Parsing e especifique um campo de origem, bem como os campos que serão usados para armazenar os componentes de endereço extraídos. Faça o mapeamento dos componentes de endereço para os campos selecionados.
  8. Teste sua skill clicando em Test Skill Using Selected Documents e analise os resultados obtidos.
  9. Quando os resultados dos testes forem satisfatórios, publique sua skill.

Extraindo Entidades Nomeadas Personalizadas

Suponha que você precise extrair o nome de uma organização em um parágrafo que contém informações sobre ambas as partes do acordo. Além disso, você precisa extrair um endereço de e‑mail. Nesse caso, primeiro use a atividade Segmentation para extrair o parágrafo de interesse. No entanto, não use a atividade Named Entities (NER), pois ela extrairá os nomes das duas organizações no parágrafo e, além disso, não foi treinada para extrair e‑mails. Nesse cenário, use a atividade Deep Learning for NLP. Você também pode aplicar esse procedimento para melhorar a precisão de extração de entidades nomeadas pré‑treinadas. Teste tanto uma atividade pré‑treinada quanto a atividade Deep Learning for NLP e escolha a que tiver melhor desempenho em seus documentos. Lembre-se de que é necessário um grande número de documentos para usar essa atividade (o mínimo é 50 documentos, mas recomendamos ter pelo menos 150). Você também pode testar ambas as atividades (Named Entities (NER) e Deep Learning for NLP) e escolher a que tiver melhor desempenho em seus documentos. Segmentation with Deep Learning

Etapas para criar uma Skill de Documento

  1. Abra o Advanced Designer. Crie uma nova Skill clicando em Create Document Skill na página inicial.
  2. Use a guia Documents que será aberta para fazer upload dos documentos que serão usados para configurar sua Skill.
  3. Após enviar as imagens, acesse a guia Fields e defina a estrutura de campo da Skill criando e configurando os campos que serão extraídos pela Skill. Rotule os documentos na seção Reference.
  4. Vá para a guia Activities, crie uma atividade de Segmentation e especifique os campos que serão usados para armazenar os parágrafos de destino.
  5. Abra o Activity Editor, configure e treine a atividade de Segmentation.
  6. Volte para a guia Activities, crie uma atividade de Deep Learning for NLP e especifique os campos que devem ser extraídos por essa atividade.
  7. Abra o Activity Editor para configurar e treinar a atividade de Deep Learning.
  8. Teste sua Skill clicando em Test Skill Using Selected Documents e analise os resultados obtidos.
  9. Quando os resultados dos testes estiverem satisfatórios, publique sua Skill.