Reconhecimento Óptico de Caracteres (OCR (Optical Character Recognition))
- A tecnologia de OCR (Optical Character Recognition) — reconhecimento de texto impresso — está disponível para 211 idiomas, incluindo:
- Idiomas europeus (alfabetos latino, cirílico, armênio e grego)
- Chinês (simplificado e tradicional), japonês e coreano (CJK)
- Árabe, tailandês, vietnamita, hebraico e farsi
- Birmanês — versão preliminar técnica
- FineReader XIX — um módulo de OCR (Optical Character Recognition) desenvolvido especificamente para digitalizar e arquivar documentos antigos, livros e jornais publicados entre os séculos XVII e XX, muitos dos quais são raros e únicos. Armazenados nos arquivos históricos de bibliotecas e organizações governamentais, eles constituem um patrimônio nacional que deve ser preservado. O FineReader XIX oferece um recurso exclusivo para reconhecer textos publicados no período de 1600 a 1937 em inglês, francês, alemão, italiano e espanhol. Ele oferece suporte ao reconhecimento de fontes antigas, como Fraktur, Schwabacher e a maioria das fontes góticas.

- 56 idiomas contam com suporte a dicionário/morfologia, o que melhora significativamente a precisão do OCR (Optical Character Recognition).
- O recurso de reconhecimento de documentos multilíngues permite reconhecer vários idiomas, por exemplo, alemão e chinês; inglês, russo e coreano em um mesmo documento.
- Reconhecimento de documentos em matriz de pontos — o ABBYY FineReader Engine reconhece textos impressos em matriz de pontos de vários tipos. Ele foi treinado com vários milhares de amostras produzidas por diversos tipos de impressoras, incluindo matriciais, de margarida, de corrente e de banda, bem como com os modos de impressão rascunho e Near Letter Quality (NLQ).
- Reconhecimento de documentos datilografados.
- Reconhecimento das fontes OCR-A, OCR-B, MICR (E13B) e CMC7.
Reconhecimento Inteligente de Caracteres (ICR)
- Tecnologia ICR — reconhecimento de caracteres manuscritos em letra de forma para mais de 126 idiomas.
- 39 idiomas (com alfabetos latino, grego e cirílico) com suporte a morfologia/dicionário.
- ICR para algarismos indianos usados em países árabes.
- 30 estilos regionais de escrita manuscrita em letra de forma usados em diferentes países e regiões do mundo (para os idiomas compatíveis com ICR).
- Reconhecimento de caracteres manuscritos em letra de forma em campos e molduras — campos sublinhados, caixas, campos do tipo comb etc.
- ICR multilíngue. Uma das principais vantagens da tecnologia ICR da ABBYY é oferecer praticamente o mesmo alto nível de precisão para algarismos e para algarismos combinados com letras de um ou mais idiomas, mesmo que os campos contenham letras maiúsculas e minúsculas.
Reconhecimento Óptico de Marcas (OMR)
- marcas de seleção em molduras quadradas
- marcas de seleção sobre fundo em branco
- tipos de marcas de seleção não padrão (marcas de seleção especiais exigem treinamento antes de poderem ser reconhecidas)
Reconhecimento óptico de códigos de barras (OBR)
- Tipos de códigos de barras 1D e 2D. O ABBYY OCR SDK oferece suporte ao reconhecimento dos tipos mais comuns de códigos de barras 1D e 2D. Consulte a lista de tipos de códigos de barras compatíveis.
- Extração rápida de códigos de barras. Esse recurso permite a detecção e o reconhecimento automáticos de códigos de barras em documentos, em qualquer ângulo. Ele funciona tanto com códigos de barras 1D quanto 2D
Modos de reconhecimento
- Modo de reconhecimento preciso
- Modo de reconhecimento rápido
- Modo de reconhecimento normal
Reconhecimento de Texto Completo e em Nível de Campo
| Especificação | Reconhecimento de texto completo | Reconhecimento em nível de campo |
|---|---|---|
| Onde é usado | Conversão de documentos, arquivamento de livros | Captura de dados |
| --- | --- | --- |
| Análise de documentos | Análise geral de documentos, análise de documentos para faturas, análise de documentos para indexação de texto completo | Especificação manual de blocos para reconhecimento em nível de campo |
| Reconhecimento | OCR com precisão geral de cerca de 96 a 99% | OCR, ICR, OMR e reconhecimento de códigos de barras com tipos de dados e intervalos de valores predefinidos. A precisão é de cerca de 100% |
| Verificação | Recomendada para reutilização de conteúdo | Obrigatória na maioria dos casos |
| Síntese | Usada para recuperação de documentos | Não usada |
| Exportação dos resultados do reconhecimento | Arquivos de documento (RTF, DOCX, PDF etc.) | Exportação para arquivo XML ou banco de dados |
- Arquivamento de documentos
- Conversão de documentos para reutilização de conteúdo
- Extração de texto bruto para detecção de campos e classificação de documentos
- Extração de dados de campos com várias bordas e molduras, incluindo caixas de combinação, campos sublinhados, caixas e até campos em que os dados não cabem dentro da borda do campo
- Definição do conteúdo do campo por meio da configuração de alfabetos, dicionários, expressões regulares, tipos de segmentação, estilos de escrita manual (somente Windows) etc.
- Detecção de espaçamento dentro do campo, reconhecendo com precisão campos em que espaços são permitidos. O ABBYY FineReader Engine 12 também permite o uso de dicionários que contêm combinações de palavras com espaços
- Processamento inteligente de blocos com partes e linhas que se cruzam, fornecendo reconhecimento de texto (palavras e símbolos) localizado inteiramente dentro das bordas do bloco, economizando tempo com o reconhecimento de blocos de texto irrelevantes
- Remoção de ruído em blocos de texto, com a capacidade de especificar o tamanho do “lixo” branco ou preto
Idiomas do usuário
- Em documentos preenchidos à mão, os valores nos campos do formulário geralmente pertencem a um conjunto específico, como nomes de cidades, países, CEPs, códigos de produto, valores etc. Para melhorar a qualidade do reconhecimento por ICR, você pode usar idiomas do usuário para descrever as informações que podem ser inseridas em cada campo.
- Se um documento contiver “estruturas” como códigos de produto, números de telefone, números de passaporte etc., poderão ocorrer erros de reconhecimento. Isso acontece porque o programa lê essas estruturas letra por letra. Para melhorar o reconhecimento de códigos de produto e elementos semelhantes, você pode criar um novo idioma de reconhecimento que ajudará o programa a ler corretamente tipos específicos de dados.
