Análise de documentos

Recursos básicos de análise de documentos

A Análise de Documentos é um conjunto de funções para a detecção automática dos seguintes objetos em uma página:

Blocos de texto
Imagens
Tabelas e células de tabela
Códigos de barras
Separadores

Além disso, a análise de documentos oferece alguns recursos especiais para preparar a imagem para OCR (Optical Character Recognition):

detectar a orientação da página — 90, 180 e 270 graus
dividir páginas duplas
detectar texto vertical em células de tabela
detectar e marcar blocos de ruído na página

Essa preparação é muito importante para determinar quais campos na página devem ser reconhecidos e o que deve ser mantido no formato original. Também é possível selecionar manualmente o campo para reconhecimento. Nesse caso, você precisa definir as coordenadas do campo e o tipo de dados contido nele. Isso é usado principalmente no cenário de Reconhecimento em nível de campo para captura de dados. O ABBYY FineReader Engine 12 oferece 3 tipos automáticos e 1 tipo manual de análise de documentos:

Análise geral de documentos

Este é o tipo padrão de análise de documentos, que procura todos os objetos: blocos de texto, imagens, tabelas, códigos de barras e separadores. Os resultados dessa análise são usados para recuperar a estrutura e o layout do documento no cenário de reutilização de conteúdo. Todas as imagens e diagramas são preservados em sua forma original, sem reconhecer o texto presente neles.

Análise de documentos para faturas

Este é um mecanismo de pré-processamento para a conversão de documentos semiestruturados, como faturas, ordens de pagamento, contas, conhecimentos de transporte, cartões de visita, contratos, formulários de solicitação de reembolso médico, currículos etc. Ele foi desenvolvido para localizar com precisão todo o texto nesses documentos, incluindo caracteres e números — mesmo quando essas informações estão em carimbos, imagens, logotipos ou áreas com texto pequeno. Ao contrário da análise padrão de documentos de página inteira, esta pressupõe que todas as informações impressas nos documentos sejam texto. Ela também garante que informações textuais importantes não sejam identificadas como elementos gráficos e que palavras ou valores numéricos não sejam divididos em vários caracteres. Como resultado, fica disponível para análise o máximo de informações sobre o texto, incluindo suas coordenadas, para processamento campo a campo e parsing nas etapas posteriores do processamento por outros sistemas.

Análise de documentos para indexação de texto completo

Detecta e reconhece automaticamente todo o texto presente nos documentos, incluindo texto incorporado em imagens, gráficos e diagramas. Os desenvolvedores podem optar por usar esse modo de análise de documentos para extrair, dos documentos, todas as informações de texto completo necessárias para a criação de índices de documentos (como em sistemas DMS, CMS e de arquivamento).

Especificação de blocos manuais para reconhecimento em nível de campo

Este caso não requer nenhuma análise porque o campo de reconhecimento é definido diretamente pelo usuário ou pela aplicação. O Recognizer recebe as coordenadas do campo e o tipo de texto e executa o OCR na zona especificada.

Veja também

Principais recursos

Visão geral

Principais recursos novos

Recursos básicos de análise de documentos

Análise geral de documentos

Análise de documentos para faturas

Análise de documentos para indexação de texto completo

Especificação de blocos manuais para reconhecimento em nível de campo

Veja também

Visão geral

Principais recursos novos

​Recursos básicos de análise de documentos

​Análise geral de documentos

​Análise de documentos para faturas

​Análise de documentos para indexação de texto completo

​Especificação de blocos manuais para reconhecimento em nível de campo

​Veja também

Recursos básicos de análise de documentos

Análise geral de documentos

Análise de documentos para faturas

Análise de documentos para indexação de texto completo

Especificação de blocos manuais para reconhecimento em nível de campo

Veja também