Pular para o conteúdo principal
Enquanto um classificador está sendo treinado, são coletadas estatísticas sobre os resultados da classificação. Analisar essas estatísticas ajuda a entender como melhorar a qualidade do classificador. As estatísticas de classificação podem ser encontradas na guia Result no Skill Designer de Classificação e são atualizadas automaticamente sempre que o classificador é treinado. Abas de Análise do Skill de Classificação Esta guia contém as seguintes informações:
  • Precisão geral da classificação: a porcentagem de documentos classificados corretamente em relação ao número total de documentos no conjunto.
  • Precisão de classificação por classe: a porcentagem de documentos classificados corretamente para uma determinada classe.
  • A quantidade de documentos corretamente classificados e incorretamente classificados de cada classe.
  • A data e a hora em que o classificador foi treinado pela última vez.
A tabela de resultados contém todas as classes de usuário não vazias (excluindo No class). As classes na tabela são ordenadas primeiro pela precisão do classificador (da pior para a melhor), depois pelo número de documentos na classe e, por último, em ordem alfabética. Se todas as linhas da tabela não puderem ser exibidas de uma só vez na tela, será exibida uma barra de rolagem. Ao clicar em uma linha na tabela de resultados, o usuário é direcionado para a classe correspondente na guia Documents. Modificar o nome de uma classe na guia Documents também o atualiza na guia Result. Se você excluir uma classe após treinar o classificador correspondente, o nome dessa classe ficará acinzentado na guia Result. A linha contendo essa classe só será removida da tabela de resultados quando o classificador for treinado novamente.

Erros de classificação

A maioria dos casos de classificação incorreta ocorre devido a erros cometidos durante a criação do conjunto de treinamento (por exemplo, classes de referência atribuídas incorretamente ou um número insuficiente de páginas específicas em um conjunto de documentos).

Classes de referência atribuídas incorretamente

Para corrigir esse tipo de erro, atribua a classe correta ao documento específico do conjunto de treinamento e reentreine o classificador da seguinte forma:
  1. Navegue até a guia Documents clicando em Review Prediction in Document Set no painel Actions. Como alternativa, clique na linha com a classe apropriada na tabela de resultados.
  2. Selecione um documento que foi atribuído incorretamente a uma classe de referência.
  3. Clique no nome da classe correta no painel Actions.
  4. Repita as etapas 2 e 3 para cada documento que foi atribuído incorretamente a uma classe de referência.
  5. Clique no botão Train no painel Actions.

Número insuficiente de páginas no conjunto de documentos

A baixa qualidade do classificador pode ser causada pelos seguintes fatores:
  • Número insuficiente de documentos enviados
  • Distribuição substancialmente desigual de documentos entre as classes
  • Número insuficiente de amostras das variantes de documento mais comuns para a classe em questão
Nesse caso, a qualidade do classificador pode ser aprimorada adicionando os documentos que faltam ao conjunto de treinamento. Recomendamos enviar entre 100 e 1000 documentos para cada classe. Também sugerimos que seu conjunto de documentos inclua documentos de amostra das variantes de documento mais comuns de cada classe, em uma proporção aproximada de um para um. Depois de adicionar seus novos documentos ao conjunto de treinamento, atribua uma classe a cada um e reentreine o classificador.

Classes confundidas

Erros de classificação também podem ocorrer quando classes não diferem de forma significativa entre si em relação aos seus parâmetros. Nesse caso, revise a quantidade de classes e, se necessário, una as classes confundidas em uma única. Por exemplo, uma classe para faturas de menos de 10.000 USD e uma classe para faturas de mais de 10.000 USD podem ser confundidas se a única diferença relevante entre elas for o Total devido. Nesse cenário, essas classes devem ser unificadas em uma única classe para a Skill de Classificação, e as faturas só devem ser separadas em uma etapa posterior, se necessário (por exemplo, quando o Total devido já tiver sido extraído da fatura).

Veja também