Pular para o conteúdo principal
O nível de detalhe e a qualidade dos registros do catálogo de dados influenciam significativamente a precisão da detecção de empresas. Quanto mais os registros do emissor e do destinatário do documento corresponderem ao texto extraído da imagem do documento, com maior precisão as empresas emissora e destinatária serão identificadas.

Práticas recomendadas para detecção precisa

Para garantir que os resultados de detecção sejam o mais precisos possível, certifique-se de que:
  • Os identificadores exclusivos da empresa estejam preenchidos. Preencher as colunas de valores exclusivos (ID de Imposto, ID de Imposto Nacional, IBAN) aumentará significativamente a probabilidade de detecção correta, pois esses valores são únicos para cada empresa.
  • Não haja registros de empresas duplicados. A ausência de registros duplicados aumenta a probabilidade de detectar a empresa corretamente.
  • Não haja registros não relacionados. Registros desatualizados ou inválidos no catálogo de dados podem levar à detecção incorreta da empresa devido a semelhanças fortuitas entre diversos valores de campo.
  • Todos os campos estejam preenchidos em cada registro de empresa. Forneça o máximo possível de informações precisas sobre as empresas. Quanto mais precisas forem as informações, maior a probabilidade de detectar as empresas corretamente.

Processo de Detecção de Empresas

A detecção de empresas inclui as seguintes etapas: Os valores dos seguintes campos são considerados identificadores únicos de empresa:
  • ID de Imposto
  • ID de Imposto Nacional
  • IBAN
Uma atividade Classify By Company pesquisa a imagem do documento pelos valores dos campos listados acima usando palavras-chave e expressões regulares. Se nenhum for especificado, esta etapa será ignorada. Os valores de ID de Imposto, ID de Imposto Nacional e IBAN detectados em uma imagem de documento são usados para consultar o catálogo de dados. Em seguida, os valores de ID de Imposto, ID de Imposto Nacional e IBAN recebidos do catálogo de dados são comparados com os valores detectados na imagem (é usada correspondência exata). Para fins de correspondência, os valores são normalizados da seguinte forma:
  • letras são convertidas para maiúsculas
  • espaços e os seguintes caracteres são removidos: ”.”, ”,”, ””, ”/”, ”****“
Todo o texto detectado na imagem do documento é usado para consultar o catálogo de dados. Em seguida, os valores de Name, Street, Postal code e City recebidos do catálogo de dados são confrontados com os valores detectados na imagem (usa-se correspondência exata).
Observação: Para obter os melhores resultados de pesquisa, verifique se as colunas correspondentes no catálogo de dados estão preenchidas. As informações de nome e endereço da empresa são especialmente importantes nos casos em que a empresa não pode ser identificada usando um ID de Imposto, ID Fiscal Nacional ou IBAN.

Etapa 3: Geração de hipóteses

Com base nas empresas encontradas nas etapas 1 e 2, é gerado um conjunto de hipóteses. A atividade Classify By Company avalia essas hipóteses e seleciona cinco registros de empresa emissora do documento e cinco registros de empresa recebedora do documento que mais confiavelmente correspondem aos valores de campo detectados na imagem do documento. Esses registros são então usados para formar 25 pares, tratando cada par como uma hipótese separada. Um modelo treinado classifica as hipóteses por confiabilidade, selecionando o par emissor–receptor com a melhor correspondência.
Observação: Mesmo que o número de empresas recebedoras do documento seja muito pequeno (por exemplo, se houver apenas uma), ainda é recomendável usar um catálogo de dados Document Receiver Companies, pois isso impedirá que uma empresa recebedora do documento seja detectada incorretamente como empresa emissora do documento.
Se o catálogo de dados Document Issuer Companies especificar que o Issuer Company ID depende do Receiver Company ID, as hipóteses serão geradas com base nessa correlação (consulte Procurando um par de empresas).

Resultados da detecção das empresas emissora e receptora do documento

Como resultado da detecção das empresas emissora e receptora em um documento, serão encontrados os seguintes identificadores:
  • O identificador da empresa emissora no catálogo de dados Document Issuer Companies
  • O identificador da empresa receptora no catálogo de dados Document Receiver Companies
Observação: Se o catálogo de dados Document Issuer Companies especificar que o ID da empresa emissora depende do ID da empresa receptora (consulte Busca por um par de empresas), o resultado da detecção da empresa emissora do documento conterá o ID da empresa emissora que corresponde ao ID da empresa receptora.