- Pré-processamento das imagens digitalizadas ou fotos
- Reconhecimento da maior quantidade possível de texto em uma imagem de documento
Implementação do cenário
Os exemplos de código fornecidos neste tópico são específicos para Windows.
Etapa 1. Carregar o ABBYY FineReader Engine
Etapa 1. Carregar o ABBYY FineReader Engine
Para começar a trabalhar com o ABBYY FineReader Engine, você precisa criar o objeto Engine. O objeto Engine é o objeto de nível mais alto na hierarquia de objetos do ABBYY FineReader Engine e fornece diversas configurações globais, alguns métodos de processamento e métodos para criar os demais objetos.Para criar o objeto Engine, você pode usar a função InitializeEngine. Consulte também outras formas de carregar o objeto Engine (Win).
C#
C++ (COM)
Etapa 2. Carregando as configurações do cenário
Etapa 2. Carregando as configurações do cenário
As configurações mais adequadas para este cenário podem ser selecionadas no ABBYY FineReader Engine usando o método LoadPredefinedProfile do objeto Engine. Esse método recebe o nome do perfil como parâmetro de entrada. Consulte Working with Profiles para mais informações.O ABBYY FineReader Engine oferece suporte a 2 opções de configuração para este cenário:
Se quiser alterar as configurações de processamento, use os objetos Parameter adequados. Consulte Additional optimization for specific tasks abaixo para mais informações.
Nome do perfil | Descrição |
|---|---|
TextExtraction_Accuracy | As configurações foram otimizadas para precisão:
|
TextExtraction_Speed | As configurações foram otimizadas para velocidade de processamento:
|
C#
C++ (COM)
Etapa 3. Carregando e pré-processando as imagens
Etapa 3. Carregando e pré-processando as imagens
O ABBYY FineReader Engine fornece o objeto FRDocument, que permite processar documentos com várias páginas.Para carregar imagens de um único documento e pré-processá-las, você deve criar o objeto FRDocument e adicionar as imagens a ele. Você pode fazer o seguinte:
- Criar o objeto FRDocument usando o método CreateFRDocumentFromImage do objeto Engine. Esse método cria o objeto FRDocument e carrega imagens do arquivo especificado.
- Criar o objeto FRDocument com o método CreateFRDocument do objeto Engine e, em seguida, adicionar imagens do arquivo ao objeto FRDocument criado (use o método AddImageFile, AddImageFileWithPassword ou AddImageFileWithPasswordCallback do objeto FRDocument).
C#
C++ (COM)
Etapa 4. Reconhecimento do documento
Etapa 4. Reconhecimento do documento
Para reconhecer o documento, você deve usar os métodos de análise e reconhecimento do objeto FRDocument. Esse objeto oferece uma ampla gama de métodos para análise e reconhecimento de documentos. O método mais conveniente, que permite analisar, reconhecer e sintetizar o documento com uma única chamada, é o Process. Ele também aproveita da forma mais eficiente os recursos de processamento simultâneo de sistemas multiprocessados e multicore. No entanto, você também pode executar o pré-processamento, a análise, o reconhecimento e a síntese de forma sequencial usando os métodos Preprocess, Analyze, Recognize e Synthesize.
C#
C++ (COM)
Etapa 5. Busca de informações importantes
Etapa 5. Busca de informações importantes
Durante a análise, o ABBYY FineReader Engine seleciona blocos de imagem que contêm texto, tabelas, imagens etc. Durante o reconhecimento, os blocos que contêm dados de texto são preenchidos com o texto reconhecido.No ABBYY FineReader Engine, o objeto Layout serve como repositório para blocos e texto reconhecido. O principal cenário de processamento de documentos trabalha com o layout dentro do objeto FRDocument, que representa o documento em processamento. Para acessar o layout de uma página do documento, use a propriedade IFRPage::Layout.Para localizar palavras-chave, você pode visualizar o texto reconhecido usando o objeto Text, que pode ser acessado por meio das propriedades dos blocos de texto, tabela ou código de barras.Os dados importantes encontrados podem ser salvos ou processados conforme necessário. Consulte Additional optimization for specific tasks abaixo para obter informações mais detalhadas.
(Opcional) Etapa 6. Exportação do documento
(Opcional) Etapa 6. Exportação do documento
Como alternativa, talvez você queira armazenar o texto extraído em um formato facilmente pesquisável, como TXT, ou em um formato estruturado que permita recuperar facilmente as informações necessárias mais tarde, como JSON.Use o método Export do objeto FRDocument com uma constante FileExportFormatEnum correspondente como um dos parâmetros. Você pode alterar os parâmetros padrão de exportação usando o objeto de exportação correspondente. Consulte Additional optimization for specific tasks abaixo para mais informações.Depois de concluir seu trabalho com o objeto FRDocument, libere todos os recursos usados por ele. Use o método IFRDocument::Close.
C#
C++ (COM)
Etapa 7. Descarregando o ABBYY FineReader Engine
Etapa 7. Descarregando o ABBYY FineReader Engine
Depois de concluir o trabalho com o ABBYY FineReader Engine, você precisa descarregar o objeto Engine. Para isso, use a função exportada DeinitializeEngine.
C#
C++ (COM)
Recursos necessários
Otimização adicional para tarefas específicas
-
Digitalização - somente Windows
- Digitalização
Descrição do cenário do ABBYY FineReader Engine para digitalização de documentos.
- Digitalização
-
Reconhecimento
- Ajuste dos parâmetros de pré-processamento, análise, reconhecimento e síntese
Personalização do processamento de documentos usando objetos de parâmetros de análise, reconhecimento e síntese.
- Ajuste dos parâmetros de pré-processamento, análise, reconhecimento e síntese
-
Reconhecimento de texto manuscrito
Os perfis TextExtraction_*** não incluem o reconhecimento de texto manuscrito ou de texto em letra de forma escrito à mão. Se você precisar reconhecer texto manuscrito, defina a propriedade DetectHandwritten do objeto PageAnalysisParams como TRUE. -
Objeto PageProcessingParams
Este objeto permite personalizar os parâmetros de análise e reconhecimento. Com este objeto, você pode indicar quais características de imagem e texto devem ser detectadas (imagem invertida, orientação, códigos de barras, idioma de reconhecimento, margem de erro de reconhecimento). -
Objeto SynthesisParamsForPage
Este objeto inclui parâmetros responsáveis pela restauração da formatação de uma página durante a síntese. -
Objeto SynthesisParamsForDocument
Este objeto permite personalizar a síntese de documentos: restaurar sua estrutura e formatação. -
Objeto MultiProcessingParams - somente Linux e Windows
O processamento simultâneo pode ser útil ao processar um grande número de imagens. Nesse caso, a carga de processamento será distribuída entre os núcleos do processador durante a abertura e o pré-processamento das imagens, a análise de layout e o reconhecimento, o que permite acelerar o processamento.
Os modos de leitura (simultâneo ou sequencial) são definidos usando a propriedade MultiProcessingMode. A propriedade RecognitionProcessesCount controla o número de processos que podem ser iniciados. -
Busca de informações importantes
- Trabalhando com Layout e Blocos
Sobre o layout da página, os tipos de bloco e como trabalhar com eles. - Objeto Layout
Os parâmetros deste objeto fornecem acesso ao layout da página e ao texto reconhecido após o reconhecimento do documento. - Trabalhando com texto
Trabalhando com texto reconhecido, parágrafos, palavras e símbolos.
- Trabalhando com Layout e Blocos
-
Releitura do documento usando parâmetros especiais para o tipo de dado especificado
- Reconhecimento em nível de campo
Descrição do cenário para reconhecer segmentos curtos de texto.
- Reconhecimento em nível de campo
-
Salvamento de dados
- Para salvar os dados reconhecidos, você pode usar os métodos Export ou ExportPages do objeto FRDocument, informando a constante FileExportFormatEnum como um dos parâmetros.
- Arquivamento de documentos
Descrição do cenário para salvar uma cópia eletrônica do documento.
