- Você trabalha em setores regulamentados nos quais a reprodutibilidade e a auditabilidade dos resultados da extração são exigidas.
- Seu conjunto de documentos contém PDFs com camadas de texto incorporadas de baixa qualidade ou pouco confiáveis, que teriam melhores resultados com OCR.
- Você está migrando do ABBYY FlexiCapture e precisa reproduzir o comportamento de processamento dos seus workflows existentes.
- Você precisa de um comportamento de processamento consistente e previsível em todos os documentos, independentemente do conteúdo.
Modos disponíveis
| Modo | Descrição | Quando usar |
|---|---|---|
| Padrão (Recomendado) | Usa a camada de texto incorporada do PDF quando disponível e a complementa com OCR, conforme necessário. Este é o comportamento padrão de processamento do Vantage. | Uso geral. Recomendado para a maioria dos conjuntos de documentos com uma mistura de PDFs com camada de texto e PDFs somente com imagem. |
| Usar apenas a camada de texto | Extrai texto exclusivamente da camada de texto incorporada do PDF. Se não houver camada de texto, o Vantage recorre ao OCR automaticamente. | Use quando você tiver camadas de texto confiáveis e de alta qualidade e quiser uma extração mais rápida, sem OCR completo. Útil em ambientes regulamentados, nos quais a camada de texto existente é a fonte oficial. |
| Usar apenas OCR | Ignora qualquer camada de texto incorporada do PDF e executa OCR completo em todas as páginas do documento. | Use quando as camadas de texto do PDF forem conhecidamente pouco confiáveis ou estiverem corrompidas, ou quando você precisar de uma extração consistente baseada em OCR em todos os documentos, independentemente da estrutura deles. |
Cenários de exemplo
Usar apenas a camada de texto
Usar apenas a camada de texto
Sua organização processa faturas em PDF geradas digitalmente, exportadas do sistema ERP de um fornecedor. A camada de texto incorporada é precisa e gerada automaticamente. A opção Usar apenas a camada de texto oferece extração rápida e confiável sem executar OCR desnecessariamente.
Padrão (recomendado)
Padrão (recomendado)
Você processa, no mesmo fluxo de trabalho, um grande volume de documentos em papel digitalizados e PDFs gerados digitalmente. Alguns arquivos têm camadas de texto nítidas; outros, não. Padrão (recomendado) lida com ambos automaticamente, sem necessidade de configuração por documento.
Usar apenas OCR
Usar apenas OCR
Seu conjunto de documentos consiste em PDFs produzidos por um sistema legado de digitalização que incorpora uma camada de texto de baixa qualidade durante a digitalização. Essa camada incorporada contém erros de reconhecimento que prejudicam a extração de campos. Usar apenas OCR a ignora completamente e extrai texto limpo diretamente da imagem da página.
Ambientes regulados
Ambientes regulados
Você trabalha em um setor regulado (como serviços financeiros ou saúde), em que os resultados da extração precisam ser totalmente reproduzíveis e auditáveis. Fixar o modo como Usar apenas a camada de texto ou Usar apenas OCR garante que o mesmo caminho de processamento seja sempre usado, independentemente de como os documentos cheguem.
Onde configurar
- configurações do Skill de OCR — guia Geral, em Processamento de Imagem
- configurações da Atividade de OCR em um Skill de Processo — guia Geral, em Processamento de Imagem
