Pular para o conteúdo principal
Pode ser difícil definir propriedades de extração de campos quando uma única Skill de Documento precisa processar documentos que variam significativamente quanto ao posicionamento dos campos (mesmo sendo do mesmo tipo). Por exemplo, a mesma skill pode ser usada para processar faturas de diferentes Fornecedores, em que os mesmos campos podem estar em posições que variam de fornecedor para fornecedor. Para melhorar a qualidade de extração nessas skills, você pode classificar os documentos em classes — subgrupos de documentos (com propriedades comuns) de um único tipo — e configurar atividades de extração separadas para cada uma. Classificar documentos em classes também pode ser necessário quando você precisa melhorar a qualidade de extração de uma das classes. Por exemplo, uma única skill pode ser usada para processar extratos bancários emitidos por diferentes bancos. Um tipo de extrato pode apresentar qualidade de extração inferior em comparação aos demais. Para melhorar a qualidade de extração dessa skill, você pode classificar os extratos em classes e configurar uma atividade de Regras de Extração para a classe com qualidade de extração insatisfatória. A atividade Classificar por Texto e Imagem foi projetada para classificar os documentos de uma skill em classes que exigem a criação e configuração de atividades de extração próprias.

Visão geral da configuração

Para criar e configurar uma atividade Classify By Text and Image, siga estas etapas:
  1. Crie uma atividade Classify By Text and Image no fluxo de processamento de documentos.
  2. Envie imagens, crie classes e atribua classes esperadas aos documentos.
  3. Treine a atividade e analise os resultados do treinamento.
  4. Ajuste as propriedades caso seja necessário melhorar os resultados da classificação.

Criando e Configurando pela guia Activities

Crie uma atividade Classify By Text and Image no fluxo de trabalho. Quando for criada, um campo para registrar os resultados da classificação será adicionado à estrutura da Skill. O valor desse campo será usado para classificar documentos. Esse campo será exibido na estrutura de campos da Skill, porém será marcado como oculto e não será editável.
Observação: Uma atividade Classify By Text and Image não retorna um valor de confiança para uma classe; ela apenas retorna seu nome.
Para abrir o Activity Editor, clique em Activity Editor ou dê um clique duplo no bloco da atividade.

Configuração usando o Editor de Atividades

Etapa 1: Carregar Documents

Carregue documentos que serão usados para configurar a atividade clicando em Upload na barra de ferramentas e selecionando um método de upload: a. Upload Documents… Use a caixa de diálogo que será aberta para selecionar os documentos apropriados. Os documentos selecionados serão exibidos na lista No Class. b. Upload Folder Like Classes… Use a caixa de diálogo que será aberta para selecionar uma pasta que contenha subpastas com imagens. Cada subpasta deve conter imagens de uma única classe. Fazer o upload de documentos dessa forma criará automaticamente classes que correspondem às subpastas, com os documentos nessas respectivas subpastas classificados como sendo daquela classe. Assim, você não precisará criar classes manualmente no Activity Editor.

Etapa 2: Criar classes

Crie classes que correspondam aos diferentes tipos de documentos em processamento clicando em Create Class na barra de ferramentas ou em Create no painel Assign class. Se seus documentos foram enviados usando Upload folder like classes, verifique se todas as classes necessárias foram criadas.

Etapa 3: Classificar Documents

Classifique seus documentos usando um dos seguintes métodos:
  • Selecione todos os documentos de uma única classe na lista e clique em um nome de classe adequado no painel Assign class.
  • Se ainda não existir uma classe adequada, selecione todos os documentos pertinentes na lista e crie uma classe clicando em Create Class na barra de ferramentas ou em Create no painel Assign class.
  • Selecione todos os documentos de uma única classe e arraste-os para a lista correspondente a essa classe.

Opções adicionais

Se necessário, você pode alterar a orientação das páginas do documento usando o menu suspenso Girar na barra de ferramentas. Você pode escolher uma das seguintes opções: Girar todas as páginas para a esquerda, Girar todas as páginas para a direita ou Girar todas as páginas em 180°. Para alternar entre os modos de exibição, use os seguintes botões na barra de ferramentas:
  • Exibição em lista. Exibe os documentos em forma de lista
  • Exibição de miniaturas. Exibe os documentos como miniaturas
Para ver a imagem completa de um documento exibido na exibição de miniaturas, use o botão de visualização.

Treinando um classificador e visualizando resultados de classificação

Depois que os documentos forem classificados, treine a atividade usando o botão Train Activity. Após a conclusão do treinamento, as estatísticas dos resultados da classificação serão exibidas na guia Results. A análise dessas estatísticas ajuda a identificar classes problemáticas e a avaliar a qualidade geral do classificador.

Estatísticas gerais

O painel superior exibe estatísticas gerais para todos os documentos e classes da atividade. Essas estatísticas ajudam a avaliar a qualidade geral do seu classificador:
  • acurácia. A porcentagem de documentos cuja classe esperada correspondeu à classe atribuída pelo programa.
  • F-Measure. Usada para avaliar a precisão e a completude da classificação.
  • Recall. A proporção entre os documentos corretamente classificados como uma classe específica e todos os documentos dessa classe.
  • Precisão. A proporção entre os documentos corretamente classificados como uma classe específica e todos os documentos classificados como essa classe (tanto corretamente quanto incorretamente).

Estatísticas específicas por classe

No painel Classes, você pode visualizar as estatísticas de cada classe. Para cada classe, é exibida a porcentagem de documentos em que a classe esperada corresponde à classe atribuída pelo programa, assim como o número de documentos com classes atribuídas correta e incorretamente. Para visualizar os documentos com classes atribuídas incorretamente, selecione a classe correspondente no painel Classes e expanda a lista de documentos atribuídos incorretamente (exibida em vermelho). Analisar esses documentos deve ajudar você a entender por que o programa atribuiu a um Document específico uma classe diferente da esperada. Isso pode ocorrer com frequência se a classe esperada tiver sido definida incorretamente desde o início, por exemplo, quando documentos de classes diferentes são muito semelhantes.

Correção de erros de classificação

Classes esperadas incorretas

Uma possível causa de classificação incorreta é a atribuição equivocada de classes esperadas. Para corrigir esse tipo de erro, basta atribuir a classe esperada correta a um documento. Na guia Results, selecione uma classe que foi atribuída incorretamente a um documento. Expanda a lista de documentos com classes atribuídas incorretamente, selecione todos os documentos dessa classe e atribua a eles a classe esperada correta a partir da lista no painel Assign class.

Documentos semelhantes em classes diferentes

Outra possível causa de erros de classificação é haver documentos muito semelhantes distribuídos em classes diferentes. Se o classificador confundir as classes de duas variantes semelhantes de documento, muito provavelmente essas variantes devem estar na mesma classe, com uma única atividade de extração. Nesse caso, revise o número de classes e una as classes confundidas em uma só. As diferenças entre elas devem então ser descritas por meio de regras em uma atividade de Extraction Rules.

Dados de treinamento insuficientes

Outro possível motivo para erros de classificação é a falta de documentos em um conjunto de classes. Nesse caso, você pode melhorar a qualidade do classificador adicionando mais documentos ao conjunto. Depois de adicionar novos documentos ou alterar classes, será necessário reentreinar o classificador.