Pular para o conteúdo principal
A atividade de Deep Learning para documentos semiestruturados foi projetada para criar Skills cognitivas em nível de produção para extrair campos de documentos semiestruturados usando redes neurais.
Observação: Esta atividade não consegue extrair estruturas complexas (por exemplo, tabelas aninhadas, que são estruturas repetitivas dentro de outras tabelas) nem campos de tipo diferente de Text. Para extrair essas estruturas, use a atividade Extraction Rules.

Casos de uso

Adicione esta atividade ao seu fluxo de processamento de documentos quando:
  • Seu skill for usado para processar várias variantes de um determinado tipo de documento.
  • Você estiver planejando processar variantes de documentos para as quais seu skill ainda não foi treinado. Por exemplo, você pode ter um Skill de Documento com uma atividade Fast Learning que foi treinada para extrair campos de contratos de empréstimo (com diferentes estruturas de campo) provenientes de vários bancos. Se você decidir usar esse skill existente para processar contratos de empréstimo de um novo banco ainda não conhecido pelo skill, a qualidade da extração poderá ficar abaixo do esperado. Para melhorar a qualidade da extração, você pode usar uma atividade Deep Learning em vez de uma atividade Fast Learning.

Como funciona

Deep Learning combina Convolutional Neural Networks (CNNs), Recurrent Neural Networks (RNNs) e tokens de Natural Language Processing (NLP). Por meio dessa combinação, Deep Learning entende padrões de imagem, a estrutura de documentos, conteúdos de campos e rótulos ao redor. Ele requer um grande número de documentos para treinamento, mas generaliza bem para novos layouts de documentos que ainda não encontrou, oferecendo uma verdadeira abordagem de extração sem templates, que é a única maneira de lidar com documentos para os quais não há um conjunto exaustivo de layouts disponível na etapa de treinamento.

Requisitos de treinamento

Para obter os melhores resultados, é essencial rotular corretamente o maior número possível de documentos. A quantidade de documentos de exemplo usados para treinamento afeta significativamente a qualidade da extração de campos. O número recomendado de documentos de exemplo é o seguinte:
  • Para documentos com alta variabilidade: são necessários pelo menos 200 a 300 documentos de exemplo (2 a 3 documentos de exemplo por variante).
  • Para documentos com baixa variabilidade: são necessários no mínimo 10 documentos de exemplo (2 a 3 documentos de exemplo por variante).
O requisito mínimo é de 10, mas recomenda-se ter mais de 500 documentos rotulados, garantindo que seu conjunto de treinamento contenha quantidades aproximadamente iguais de todas as variantes de documentos que você pretende processar (idealmente, pelo menos alguns exemplos de cada variante). Não é necessário fornecer todas as possíveis variantes, mas a tecnologia precisa ver documentos variados em quantidade suficiente para derivar padrões e generalizar para variantes que ainda não encontrou. Por exemplo, no caso de faturas, espera-se que a tecnologia generalize bem para novos fornecedores quando o conjunto de treinamento tiver de 500 a 1.000 fornecedores diferentes, com dois a três documentos de exemplo de cada um no conjunto de treinamento. Embora o Deep Learning tende a generalizar, é benéfico incluir as variantes mais comuns do documento no conjunto de treinamento, por exemplo, os fornecedores que emitem o maior número de faturas.

Características de treinamento

Diferentemente da atividade Fast Learning, que é treinada com um número menor de documentos e destinada a conjuntos de documentos mais simples, o treinamento da atividade Deep Learning leva muito mais tempo e requer mais recursos de sistema (atualmente, 16 núcleos de CPU e 64 GB de RAM). O treinamento da rede neural é um processo iterativo. Cada iteração é chamada de época (epoch). No início de uma época, o conjunto de documentos é dividido em um subconjunto de treinamento e um subconjunto de validação. Durante uma época, todos os documentos do subconjunto de treinamento passam por um algoritmo de treinamento. Em seguida, o desempenho da rede neural é avaliado com o subconjunto de validação, e as métricas de cada campo e de todo o conjunto de documentos são atualizadas. Para mais informações, consulte Configuração de uma atividade Deep Learning.