Pular para o conteúdo principal

Recursos básicos de análise de documentos

A Análise de Documentos é um conjunto de funções para a detecção automática dos seguintes objetos em uma página:
  • Blocos de texto
  • Imagens
  • Tabelas e células de tabela
  • Códigos de barras
  • Separadores
Além disso, a análise de documentos oferece alguns recursos especiais para preparar a imagem para OCR (Optical Character Recognition):
  • detectar a orientação da página — 90, 180 e 270 graus
  • dividir páginas duplas
  • detectar texto vertical em células de tabela
  • detectar e marcar blocos de ruído na página
Essa preparação é muito importante para determinar quais campos na página devem ser reconhecidos e o que deve ser mantido no formato original. Também é possível selecionar manualmente o campo para reconhecimento. Nesse caso, você precisa definir as coordenadas do campo e o tipo de dados contido nele. Isso é usado principalmente no cenário de Reconhecimento em nível de campo para captura de dados. O ABBYY FineReader Engine 12 oferece 3 tipos automáticos e 1 tipo manual de análise de documentos:

Análise geral de documentos

Este é o tipo padrão de análise de documentos, que procura todos os objetos: blocos de texto, imagens, tabelas, códigos de barras e separadores. Os resultados dessa análise são usados para recuperar a estrutura e o layout do documento no cenário de reutilização de conteúdo. Todas as imagens e diagramas são preservados em sua forma original, sem reconhecer o texto presente neles.

Análise de documentos para faturas

Este é um mecanismo de pré-processamento para a conversão de documentos semiestruturados, como faturas, ordens de pagamento, contas, conhecimentos de transporte, cartões de visita, contratos, formulários de solicitação de reembolso médico, currículos etc. Ele foi desenvolvido para localizar com precisão todo o texto nesses documentos, incluindo caracteres e números — mesmo quando essas informações estão em carimbos, imagens, logotipos ou áreas com texto pequeno. Ao contrário da análise padrão de documentos de página inteira, esta pressupõe que todas as informações impressas nos documentos sejam texto. Ela também garante que informações textuais importantes não sejam identificadas como elementos gráficos e que palavras ou valores numéricos não sejam divididos em vários caracteres. Como resultado, fica disponível para análise o máximo de informações sobre o texto, incluindo suas coordenadas, para processamento campo a campo e parsing nas etapas posteriores do processamento por outros sistemas.

Análise de documentos para indexação de texto completo

Detecta e reconhece automaticamente todo o texto presente nos documentos, incluindo texto incorporado em imagens, gráficos e diagramas. Os desenvolvedores podem optar por usar esse modo de análise de documentos para extrair, dos documentos, todas as informações de texto completo necessárias para a criação de índices de documentos (como em sistemas DMS, CMS e de arquivamento). intro_KeyFeatures_DocumentAnalysis

Especificação de blocos manuais para reconhecimento em nível de campo

Este caso não requer nenhuma análise porque o campo de reconhecimento é definido diretamente pelo usuário ou pela aplicação. O Recognizer recebe as coordenadas do campo e o tipo de texto e executa o OCR na zona especificada.

Veja também

Principais recursos