Pular para o conteúdo principal
Quando o ABBYY Vantage processa um documento PDF, ele precisa decidir como extrair o texto. PDFs podem conter uma camada de texto incorporada (texto pesquisável gravado diretamente no arquivo) ou podem ser arquivos somente de imagem que exigem OCR (Optical Character Recognition) para extrair o texto. A configuração Modo de processamento de PDF oferece controle direto sobre qual método o Vantage usa. Isso é especialmente útil quando:
  • Você trabalha em setores regulamentados nos quais a reprodutibilidade e a auditabilidade dos resultados da extração são exigidas.
  • Seu conjunto de documentos contém PDFs com camadas de texto incorporadas de baixa qualidade ou pouco confiáveis, que teriam melhores resultados com OCR.
  • Você está migrando do ABBYY FlexiCapture e precisa reproduzir o comportamento de processamento dos seus workflows existentes.
  • Você precisa de um comportamento de processamento consistente e previsível em todos os documentos, independentemente do conteúdo.

Modos disponíveis

ModoDescriçãoQuando usar
Padrão (Recomendado)Usa a camada de texto incorporada do PDF quando disponível e a complementa com OCR, conforme necessário. Este é o comportamento padrão de processamento do Vantage.Uso geral. Recomendado para a maioria dos conjuntos de documentos com uma mistura de PDFs com camada de texto e PDFs somente com imagem.
Usar apenas a camada de textoExtrai texto exclusivamente da camada de texto incorporada do PDF. Se não houver camada de texto, o Vantage recorre ao OCR automaticamente.Use quando você tiver camadas de texto confiáveis e de alta qualidade e quiser uma extração mais rápida, sem OCR completo. Útil em ambientes regulamentados, nos quais a camada de texto existente é a fonte oficial.
Usar apenas OCRIgnora qualquer camada de texto incorporada do PDF e executa OCR completo em todas as páginas do documento.Use quando as camadas de texto do PDF forem conhecidamente pouco confiáveis ou estiverem corrompidas, ou quando você precisar de uma extração consistente baseada em OCR em todos os documentos, independentemente da estrutura deles.

Cenários de exemplo

Os exemplos a seguir mostram situações típicas em que cada modo é a melhor opção.
Sua organização processa faturas em PDF geradas digitalmente, exportadas do sistema ERP de um fornecedor. A camada de texto incorporada é precisa e gerada automaticamente. A opção Usar apenas a camada de texto oferece extração rápida e confiável sem executar OCR desnecessariamente.
Você processa, no mesmo fluxo de trabalho, um grande volume de documentos em papel digitalizados e PDFs gerados digitalmente. Alguns arquivos têm camadas de texto nítidas; outros, não. Padrão (recomendado) lida com ambos automaticamente, sem necessidade de configuração por documento.
Seu conjunto de documentos consiste em PDFs produzidos por um sistema legado de digitalização que incorpora uma camada de texto de baixa qualidade durante a digitalização. Essa camada incorporada contém erros de reconhecimento que prejudicam a extração de campos. Usar apenas OCR a ignora completamente e extrai texto limpo diretamente da imagem da página.
Você trabalha em um setor regulado (como serviços financeiros ou saúde), em que os resultados da extração precisam ser totalmente reproduzíveis e auditáveis. Fixar o modo como Usar apenas a camada de texto ou Usar apenas OCR garante que o mesmo caminho de processamento seja sempre usado, independentemente de como os documentos cheguem.

Onde configurar

A configuração Modo de Processamento de PDF está disponível nos seguintes locais:
  • configurações do Skill de OCR — guia Geral, em Processamento de Imagem
  • configurações da Atividade de OCR em um Skill de Processo — guia Geral, em Processamento de Imagem

Versões do Technology Core compatíveis

O modo de processamento de PDF é compatível com skills que usam o Technology Core 3. Ele não está disponível para versões anteriores do Technology Core.