O ABBYY FineReader Engine oferece suporte a inúmeros parâmetros que permitem ajustar o Engine com precisão. Na maioria dos casos, você não precisará definir todos os valores manualmente: as propriedades dos novos objetos recebem valores padrão adequados no momento da criação e, para os principais cenários de uso, fornecemos perfis predefinidos bem testados.
Se o seu cenário for mais específico e você já tiver determinado as configurações ideais para obter a melhor velocidade e qualidade de processamento, crie um perfil personalizado. Todos os parâmetros de pré-processamento de imagem, análise, reconhecimento, síntese e exportação podem ser alterados por meio de um perfil. Por exemplo, se o seu aplicativo exporta os resultados do reconhecimento para TXT (texto simples sem formatação), muitas propriedades relacionadas ao layout são irrelevantes e podem ser desativadas.
Depois de carregar um perfil usando os métodos LoadPredefinedProfile/LoadProfile do objeto Engine, as propriedades dos objetos recém-criados receberão os valores padrão especificados no perfil.
O ABBYY FineReader Engine fornece um conjunto de perfis predefinidos destinados aos principais cenários de uso. A maioria dos perfis está disponível em duas versões: uma otimizada para a melhor qualidade do documento resultante e outra otimizada para a maior velocidade de processamento. Para ver a especificação completa de todos os perfis predefinidos, consulte Especificação dos perfis predefinidos.
| |
|---|
| Indicado paraextração de dadosde um documento e sua apresentação em formato estruturado. Todos os objetos,
incluindo tabelas, imagens, marcas de seleção e texto manuscrito, são salvos
junto com sua localização e atributos. Este perfil é mais adequado para
o processamento posterior dos dados extraídos ou para integração com outras
aplicações. |
| Indicado paraconversão de documentosem formato editável (por exemplo, RTF, DOCX). As configurações foram
otimizadas para precisão: - Melhor qualidade. Habilita a detecção de estilo de fonte e a síntese completa da
estrutura lógica do documento.
|
| Indicado paraconversão de documentosem formato editável (por exemplo, RTF, DOCX). As configurações foram
otimizadas para velocidade de processamento: - Melhor qualidade. Habilita a detecção de estilo de fonte e a síntese completa da
estrutura lógica do documento.
- A orientação da imagem não é corrigida.
- O processo de análise do documento é acelerado.
|
| Indicado para criar umarquivo eletrônico(conversão para PDF, PDF/A e PDF/A com MRC). As configurações foram
otimizadas para precisão: - Habilita a detecção do máximo de texto em uma imagem, incluindo texto
incorporado à imagem.
- A síntese completa da estrutura lógica do documento não é
realizada.
Este perfil não se destina à conversão de documentos para RTF, DOCX
ou PDF somente com texto. Utilize os perfis de conversão de documentos para
essas finalidades. |
| Indicado para criar umarquivo eletrônico(conversão para PDF, PDF/A e PDF/A com MRC). As configurações foram
otimizadas para velocidade de processamento: - Habilita a detecção do máximo de texto em uma imagem, incluindo texto
incorporado à imagem.
- A correção de inclinação não é realizada.
- A síntese completa da estrutura lógica do documento não é
realizada.
- Os processos de análise e reconhecimento de documentos são acelerados.
Este perfil não se destina à conversão de documentos para RTF, DOCX
ou PDF somente com texto. Utilize os perfis de conversão de documentos para
essas finalidades. |
| Indicado paraextração de textode um documento. As configurações foram otimizadas para precisão: - Habilita a detecção de todo o texto em uma imagem, incluindo áreas de texto
pequenas e de baixa qualidade (imagens e tabelas não são detectadas).
- A síntese completa da estrutura lógica do documento não é
realizada.
O texto é extraído na mesma ordem em que seria lido por uma pessoa,
o que garante a consistência dos dados quando utilizado para treinamento e
processamento com mecanismos de processamento de linguagem natural (PLN). Este perfil não se destina à conversão de documentos para RTF, DOCX
ou PDF somente com texto. Utilize os perfis de conversão de documentos para
essas finalidades. |
| Indicado paraextração de textode um documento. As configurações foram otimizadas para velocidade de
processamento: - Habilita a detecção de todo o texto em uma imagem, incluindo áreas de texto
pequenas e de baixa qualidade (imagens e tabelas não são detectadas).
- A síntese completa da estrutura lógica do documento não é
realizada.
- Os processos de análise e reconhecimento de documentos são acelerados.
O texto é extraído na mesma ordem em que seria lido por uma pessoa,
o que garante a consistência dos dados quando utilizado para treinamento e
processamento com mecanismos de processamento de linguagem natural (PLN). O perfil não se destina à conversão de documentos para RTF, DOCX
ou PDF somente de texto. Use os perfis de conversão de documentos para
essa finalidade. |
| Adequado parareconhecer fragmentos de texto curtos. Atualmente, este perfil usa as configurações padrão. |
| Adequado paraextração de códigos de barras. Extrai apenas códigos de barras (textos, imagens e tabelas não são
detectados). As configurações foram otimizadas para precisão. Para fins de compatibilidade, este perfil também pode ser acessado pelo nome
BarcodeRecognition. |
| Adequado paraextração de códigos de barras. Extrai apenas códigos de barras (textos, imagens e tabelas não são
detectados). As configurações foram otimizadas para velocidade de processamento. |
| Adequado para criar arquivos PDF altamente comprimidos que contêm
documentos inteiros salvos como imagens. As seguintes configurações são aplicadas: - O reconhecimento de documentos e a síntese da estrutura lógica do
documento não são executados.
- A correção de inclinação não é executada.
- A exportação para PDF é otimizada para o tamanho mínimo do arquivo resultante.
- O documento inteiro é salvo como imagem (modoPEM_ImageOnly).
|
| Adequado parareconhecer cartões de visita. As seguintes configurações são aplicadas: - Detecta apenas cartões de visita.
- Habilita a detecção de todo o texto em uma imagem, incluindo pequenas
áreas de texto de baixa qualidade (imagens e tabelas não são detectadas).
- A correção de resolução é executada.
- A síntese completa da estrutura lógica do documento não é
executada.
|
| Adequado paraextrair dados de uma zona de leitura mecânica(MRZ). As seguintes configurações são aplicadas: - Habilita a detecção e extração de todo o texto em uma imagem (imagens,
gráficos vetoriais e tabelas não são detectados).
- A correção de resolução e geometria é executada automaticamente.
|
| Adequado para reconhecer desenhos técnicos. Leva em conta o
grande tamanho e a complexidade de diagramas de engenharia, bem como a
possibilidade de diferentes orientações de texto dentro da imagem. O
perfil se destina à conversão dessas imagens para o formato PDF pesquisável.
As seguintes configurações são aplicadas: - Habilita a detecção de todo o texto em uma imagem, incluindo blocos de
texto com orientação vertical.
- A síntese completa da estrutura lógica do documento não é
executada.
O perfil não se destina à conversão de documentos para RTF, DOCX
ou PDF somente de texto. Use os perfis de conversão de documentos para
essa finalidade. |
| Define todos os parâmetros de processamento com os valores padrão. |
As configurações fornecidas com esses perfis podem ser carregadas com o método LoadPredefinedProfile do objeto Engine. Depois que o perfil for carregado, os objetos criados a partir desse momento terão os novos valores padrão especificados no perfil.
- Os usuários do FRE para Linux podem encontrar os arquivos de perfil predefinidos no pacote de distribuição, na pasta Bin Libraries.
- Os usuários do FRE para macOS podem encontrar os arquivos de perfil predefinidos no pacote de distribuição, na pasta /PredefinedProfiles.
- Para determinar o conjunto de arquivos de recursos necessário para que seu aplicativo funcione usando o arquivo FREngineDistribution.csv, consulte a página correspondente ao cenário escolhido.
Você também pode criar um perfil de usuário personalizado. A sintaxe de um arquivo de perfil é semelhante à de arquivos *.ini. É possível adicionar comentários iniciando uma linha com ponto e vírgula.
As seções contêm os nomes dos objetos entre colchetes, e as chaves contêm as propriedades com seus novos valores. A seção especial chamada UserData pode conter quaisquer chaves definidas pelo usuário. As propriedades de diferentes tipos podem ser gravadas nos seguintes formatos:
- Os valores de propriedades booleanas são representados pelas strings true ou false.
- Os valores de propriedades de enumeração são representados por nomes de constantes.
- Os valores de propriedades do tipo string são escritos sem aspas.
Por exemplo:
[PrepareImageMode]
RasterizeFreeText = false
[PDFExportParams]
TextExportMode = PEM_ImageOnText
; isto é um comentário
[RecognizerParams]
TextLanguage = English,Russian
[TextExportParams]
TabSeparator = \t
O método LoadProfile do objeto Engine permite carregar um arquivo de perfil de usuário. Depois que o perfil de usuário é carregado, os objetos criados a partir daí terão as propriedades definidas com os valores especificados no perfil. Carregar parâmetros de um perfil é semelhante a definir as propriedades correspondentes no código do programa, mas simplifica a lógica da aplicação. Se você chamar LoadProfile com uma string vazia como entrada, serão usados os valores padrão.
A validade dos novos valores das propriedades e sua conformidade com a licença são verificadas na criação do objeto correspondente.
Um arquivo de perfil pode ser usado para especificar novamente todas as propriedades dos seguintes objetos:
1 Observe que a propriedade UserPatternsFile do objeto RecognizerParams aceita apenas o caminho completo para o arquivo de padrões, com o símbolo de barra aplicável como separador. O valor do caminho não deve ser colocado entre aspas. No Windows, por exemplo:
[RecognizerParams]
UserPatternsFile = C:\folder\file.ptn
No Linux: /home/user/Documents/Patterns/ e no macOS: /Users/user/Documents/
2 Para definir as propriedades dos objetos PictureExportParams ou PaperSizeParams, especifique os parâmetros diretamente na seção do objeto de parâmetro de exportação (não na seção PictureExportParams ou PaperSizeParams). Isso permitirá usar configurações diferentes para diferentes formatos de exportação. Por exemplo, para especificar o formato de imagem em cinza para arquivos RTF:
[RTFExportParams]
GrayPictureFormats = GPF_Png
3 Para definir as propriedades do objeto DocumentContentInfoWritingParams, especifique os parâmetros diretamente na seção do objeto pai. Para o formato PDF, esse objeto é o PDFExportFeatures; para os outros formatos, é o objeto de parâmetros de exportação correspondente. Assim, você pode especificar configurações diferentes de informações do conteúdo para formatos de exportação distintos. Por exemplo, se você não quiser incluir o autor do documento nos arquivos PDF de saída, insira as seguintes linhas no perfil:
[PDFExportFeatures]
WriteAuthor = false
4 Para definir as propriedades do objeto PageMargins, especifique os parâmetros diretamente na seção do objeto pai. Observe que a propriedade UseCustomPageMargins definida como TRUE deve ser especificada antes dos valores das margens da página:
[RTFExportParams]
UseCustomPageMargins = true
PageMargins.Left = 5000
PageMargins.Right = 5000
PageMargins.Top = 5000
PageMargins.Bottom = 5000
Uso de perfis predefinidos e de usuário ao mesmo tempo
Um perfil predefinido e um perfil de usuário podem ser carregados simultaneamente. Um perfil de usuário tem prioridade sobre um perfil predefinido; ou seja, se o perfil de usuário definir o mesmo parâmetro que o perfil predefinido, será usado o valor do perfil de usuário.
Se você carregar outro perfil predefinido, esse novo perfil substituirá o perfil predefinido anterior. Da mesma forma, um novo perfil de usuário substituirá o perfil de usuário anterior. Observe que carregar um perfil limpa a sessão de reconhecimento atual (equivalente a chamar o método IEngine::CleanRecognizerSession).
Ajuste de parâmetros de pré-processamento, análise, reconhecimento e síntese
Ajuste de parâmetros de exportação