Pular para o conteúdo principal
Um container de Filtragem de Hipóteses combina várias atividades de Deep Learning e uma atividade de Regras de Extração. Os resultados das atividades de Deep Learning são encaminhados para a atividade de Regras de Extração, que define condições para selecionar os valores desejados. Embora uma atividade de Deep Learning possa alcançar qualidade muito alta na extração de campos, em alguns casos você pode querer controlar a saída dessa atividade. Para isso, você pode combinar uma ou várias atividades de Deep Learning com uma atividade de Regras de Extração, que aplicará condições aos valores obtidos pela(s) atividade(s) de Deep Learning. O controle de saída é essencial quando a rede neural encontra palavras inteiras, mas você precisa apenas de partes específicas, ou quando é necessário filtrar ruídos capturados acidentalmente. Também pode ser útil para identificar partes de campos maiores, como endereços, que podem ser ignoradas pela rede neural. Além disso, permite escolher a melhor hipótese para múltiplas ocorrências do mesmo valor. Por exemplo, quando o nome de um fornecedor é impresso várias vezes em um documento, você pode selecionar o resultado de extração mais preciso entre as várias ocorrências.
Nota: Esta tecnologia é fornecida como prévia e será aprimorada em versões futuras.

Configurando um contêiner de Filtragem de Hipóteses

  1. Clique no bloco com a atividade Deep Learning e selecione Filter Hypotheses. Isso criará um novo contêiner de Filtragem de Hipóteses e colocará a atividade Deep Learning selecionada dentro dele.
  2. (Opcional) Arraste mais atividades de Deep Learning para o contêiner de Filtragem de Hipóteses. Isso permitirá combinar e comparar os resultados de duas ou mais atividades de Deep Learning. Duas atividades podem ser necessárias, por exemplo, ao trabalhar com campos de texto e tabelas ao mesmo tempo.
  3. Adicione uma atividade Extraction Rules ao contêiner. Você pode criar uma nova atividade clicando no placeholder ou arrastar uma atividade existente para o contêiner.
  4. Configure a atividade Extraction Rules. Para cada um dos valores encontrados pelas atividades de Deep Learning, adicione um elemento de pesquisa de Deep Learning e defina suas propriedades. Você pode adicionar todos os campos de saída de uma atividade de Deep Learning ao mesmo tempo. Um elemento de pesquisa Deep Learning oferece suporte a todas as propriedades que limitam a área de pesquisa e às condições para localizar o elemento.
  5. Conecte a entrada e a saída do contêiner de Filtragem de Hipóteses a outros blocos no fluxo de processamento de documentos. Os campos de saída do contêiner de Filtragem de Hipóteses serão os mesmos da atividade Extraction Rules.
Observação: Se você decidir parar de controlar a saída da atividade de Deep Learning, clique em qualquer lugar no contêiner e selecione Don’t Filter Hypotheses. O contêiner será desmontado, mas as atividades em si não serão excluídas, e você ainda poderá usá-las no fluxo de trabalho de processamento de documentos modificado.

Exemplos

Observação: Estes são apenas alguns exemplos que mostram como um contêiner de Hypothesis Filtering pode ser usado. No entanto, há muitas outras situações em que você pode utilizar essa funcionalidade para controlar o output de redes neurais e aprimorar a extração de fields. Só você pode determinar quais ajustes são necessários para os documentos com os quais está trabalhando, e incentivamos você a experimentar essa tecnologia sempre que os resultados da atividade de Deep Learning puderem se beneficiar de algum ajuste. Os exemplos abaixo usam a mesma Skill de exemplo, em que as saídas de duas atividades de Deep Learning são encaminhadas para uma atividade de Extraction Rules.

Fluxo da Skill

AD_HypothesisFiltering_Container
  • A atividade Deep Learning extrai campos de texto.
  • A atividade Deep Learning 2 extrai uma tabela.
  • O contêiner Hypothesis Filtering seleciona e combina os resultados delas.

Estrutura dos elementos de pesquisa na atividade Extraction Rules

AD_HypothesisFiltering_SearchElementTree Cada elemento de pesquisa é associado ao campo correspondente.

Exemplo 1: Corrigir um valor encontrado por uma atividade de Deep Learning

Neste exemplo, uma atividade de Deep Learning encontra um valor para o número do documento que é muito longo, e um novo elemento de pesquisa é criado para corrigir o valor. O valor para o número do documento encontrado pela atividade de Deep Learning inclui a parte após o hífen: AD_HypothesisFiltering_ValueTooLong
  1. Para corrigir o valor de Document_Number, é criado um novo elemento de pesquisa. Esse elemento de pesquisa, chamado DocNumber_Corrected, deve estar localizado dentro da região do elemento de pesquisa Document_Number e conter um número limitado de caracteres.
AD_HypothesisFiltering_CorrectedProperties
  1. A área de pesquisa do novo elemento é restrita para corresponder à região de Document_Number, adicionando a seguinte linha ao código do elemento:
RestrictSearchArea: 95.Region;
  1. O elemento de pesquisa corrigido é mapeado para o campo que extrai o número do documento:
AD_HypothesisFiltering_CorrectedMapping Como resultado, o número do documento extraído não incluirá a parte após o traço: AD_HypothesisFiltering_ValueCorrected

Exemplo 2: Selecionar um de vários valores repetidos

Neste exemplo, uma atividade de Deep Learning é treinada para encontrar todas as ocorrências do número do documento, mas o resultado final da skill precisa de apenas um campo de número do documento. Para isso, a configuração Allow Multiple Items é desativada para o campo Document Number e são especificadas condições para selecionar a ocorrência correta do número do documento.
Nota: Recomendamos que você salve o conjunto de documentos rotulados em uma pasta primeiro. Ao desativar a configuração Allow Multiple Items para um campo, todas as ocorrências extras desse campo serão excluídas da rotulagem. O modelo treinado na atividade de Deep Learning continuará funcionando, mas, caso você queira modificá-lo e retreiná-lo, será necessário carregar o conjunto de documentos original.
  1. A configuração Allow Multiple Items é desativada para o campo Document Number (a configuração pode ser acessada clicando em Manage Fields).
AD_HypothesisFiltering_NoMultiples
  1. O elemento de pesquisa Document_Number com várias ocorrências não pode ser mapeado para o campo Document Number. Portanto, é criado um novo elemento de pesquisa Deep Learning a partir da saída do número do documento da atividade de Deep Learning e ele é mapeado para o campo Document Number.
AD_HypothesisFiltering_MapNoMultiples
  1. As várias ocorrências do número do documento encontradas pela atividade de Deep Learning são usadas para construir uma árvore de hipóteses, da qual apenas uma será selecionada como o valor do elemento de pesquisa Document_Number.
AD_HypothesisFiltering_HypTree
  1. Para encontrar uma ocorrência específica, são adicionadas certas condições ao elemento de pesquisa Document_Number (neste caso, queremos encontrar a ocorrência mais superior do número do documento).
AD_HypothesisFiltering_TopmostInstance

Exemplo 3: Combine a saída de duas atividades de Deep Learning

Um contêiner de Hypothesis Filtering permite combinar os resultados de duas ou mais atividades de Deep Learning para compará-los entre si ou simplesmente ajustar esses resultados dentro da mesma atividade. Neste exemplo, foram necessárias duas atividades de Deep Learning porque uma única atividade de Deep Learning não pode ser treinada para extrair tanto campos de texto quanto tabelas. É adicionada uma condição especificando que o elemento de pesquisa Company_Address deve sempre ser encontrado acima do elemento de pesquisa Goods_Table. Como resultado, o endereço correto será encontrado mesmo que outros endereços sejam impressos na parte inferior da página. AD_HypothesisFiltering_AboveTable