Modo de processamento de PDF

Modo	Descrição	Quando usar
Padrão (Recomendado)	Usa a camada de texto incorporada do PDF quando disponível e a complementa com OCR, conforme necessário. Este é o comportamento padrão de processamento do Vantage.	Uso geral. Recomendado para a maioria dos conjuntos de documentos com uma mistura de PDFs com camada de texto e PDFs somente com imagem.
Usar apenas a camada de texto	Extrai texto exclusivamente da camada de texto incorporada do PDF. Se não houver camada de texto, o Vantage recorre ao OCR automaticamente.	Use quando você tiver camadas de texto confiáveis e de alta qualidade e quiser uma extração mais rápida, sem OCR completo. Útil em ambientes regulamentados, nos quais a camada de texto existente é a fonte oficial.
Usar apenas OCR	Ignora qualquer camada de texto incorporada do PDF e executa OCR completo em todas as páginas do documento.	Use quando as camadas de texto do PDF forem conhecidamente pouco confiáveis ou estiverem corrompidas, ou quando você precisar de uma extração consistente baseada em OCR em todos os documentos, independentemente da estrutura deles.

Modo

Descrição

Quando usar

Padrão (Recomendado)

Usa a camada de texto incorporada do PDF quando disponível e a complementa com OCR, conforme necessário. Este é o comportamento padrão de processamento do Vantage.

Uso geral. Recomendado para a maioria dos conjuntos de documentos com uma mistura de PDFs com camada de texto e PDFs somente com imagem.

Usar apenas a camada de texto

Extrai texto exclusivamente da camada de texto incorporada do PDF. Se não houver camada de texto, o Vantage recorre ao OCR automaticamente.

Use quando você tiver camadas de texto confiáveis e de alta qualidade e quiser uma extração mais rápida, sem OCR completo. Útil em ambientes regulamentados, nos quais a camada de texto existente é a fonte oficial.

Usar apenas OCR

Ignora qualquer camada de texto incorporada do PDF e executa OCR completo em todas as páginas do documento.

Use quando as camadas de texto do PDF forem conhecidamente pouco confiáveis ou estiverem corrompidas, ou quando você precisar de uma extração consistente baseada em OCR em todos os documentos, independentemente da estrutura deles.

Usar apenas a camada de texto

Sua organização processa faturas em PDF geradas digitalmente, exportadas do sistema ERP de um fornecedor. A camada de texto incorporada é precisa e gerada automaticamente. A opção Usar apenas a camada de texto oferece extração rápida e confiável sem executar OCR desnecessariamente.

Padrão (recomendado)

Você processa, no mesmo fluxo de trabalho, um grande volume de documentos em papel digitalizados e PDFs gerados digitalmente. Alguns arquivos têm camadas de texto nítidas; outros, não. Padrão (recomendado) lida com ambos automaticamente, sem necessidade de configuração por documento.

Usar apenas OCR

Seu conjunto de documentos consiste em PDFs produzidos por um sistema legado de digitalização que incorpora uma camada de texto de baixa qualidade durante a digitalização. Essa camada incorporada contém erros de reconhecimento que prejudicam a extração de campos. Usar apenas OCR a ignora completamente e extrai texto limpo diretamente da imagem da página.

Ambientes regulados

Você trabalha em um setor regulado (como serviços financeiros ou saúde), em que os resultados da extração precisam ser totalmente reproduzíveis e auditáveis. Fixar o modo como Usar apenas a camada de texto ou Usar apenas OCR garante que o mesmo caminho de processamento seja sempre usado, independentemente de como os documentos cheguem.

Skill Designer

Modos disponíveis

Cenários de exemplo

Onde configurar

Versões do Technology Core compatíveis

Skill Designer

​Modos disponíveis

​Cenários de exemplo

​Onde configurar

​Versões do Technology Core compatíveis

Modos disponíveis

Cenários de exemplo

Onde configurar

Versões do Technology Core compatíveis