- Trabaja en sectores regulados donde se exige reproducibilidad y trazabilidad de los resultados de extracción.
- Su conjunto de documentos contiene PDF con capas de texto incrustadas de baja calidad o poco fiables que darían mejores resultados con Reconocimiento óptico de caracteres (OCR).
- Está migrando desde ABBYY FlexiCapture y necesita replicar el comportamiento de procesamiento de sus flujos de trabajo existentes.
- Necesita un comportamiento de procesamiento uniforme y predecible en todos los documentos, independientemente de su contenido.
Modos disponibles
| Modo | Descripción | Cuándo usarlo |
|---|---|---|
| Predeterminado (Recomendado) | Usa la capa de texto incrustada del PDF cuando está disponible y la complementa con Reconocimiento óptico de caracteres (OCR) según sea necesario. Este es el comportamiento de procesamiento estándar de Vantage. | Uso general. Recomendado para la mayoría de los conjuntos de documentos con una combinación de PDF con capa de texto y PDF formados solo por imágenes. |
| Usar solo la capa de texto | Extrae texto exclusivamente de la capa de texto incrustada del PDF. Si no existe una capa de texto, Vantage recurre automáticamente al Reconocimiento óptico de caracteres (OCR). | Úselo cuando disponga de capas de texto confiables y de alta calidad, y quiera una extracción más rápida sin Reconocimiento óptico de caracteres (OCR) completo. Resulta útil en entornos regulados donde la capa de texto existente es la fuente autorizada. |
| Usar solo Reconocimiento óptico de caracteres (OCR) | Omite cualquier capa de texto incrustada del PDF y realiza Reconocimiento óptico de caracteres (OCR) completo en cada página del documento. | Úselo cuando se sepa que las capas de texto del PDF no son confiables o están dañadas, o cuando necesite una extracción uniforme basada en Reconocimiento óptico de caracteres (OCR) en todos los documentos, independientemente de su estructura. |
Escenarios de ejemplo
Usar solo la capa de texto
Usar solo la capa de texto
Su organización procesa facturas en PDF nativas digitales exportadas desde el sistema ERP de un proveedor. La capa de texto incrustada es precisa y se genera automáticamente. Usar Usar solo la capa de texto permite una extracción rápida y fiable sin ejecutar Reconocimiento óptico de caracteres (OCR) innecesario.
Predeterminado (recomendado)
Predeterminado (recomendado)
Procesa un gran volumen combinado de documentos en papel escaneados y PDF nativos digitales en el mismo flujo de trabajo. Algunos archivos tienen capas de texto limpias; otros, no. Predeterminado (recomendado) gestiona ambos casos automáticamente sin necesidad de configuración por documento.
Usar solo Reconocimiento óptico de caracteres (OCR)
Usar solo Reconocimiento óptico de caracteres (OCR)
Su conjunto de documentos consta de PDF generados por un sistema de escaneo heredado que incrusta una capa de texto de baja calidad durante el escaneo. Esa capa incrustada contiene errores de reconocimiento que perjudican la extracción de campos. Usar solo Reconocimiento óptico de caracteres (OCR) la omite por completo y extrae texto limpio directamente de la imagen de la página.
Entornos regulados
Entornos regulados
Trabaja en un sector regulado (como los servicios financieros o la atención sanitaria) en el que los resultados de la extracción deben ser totalmente reproducibles y auditables. Fijar el modo en Usar solo la capa de texto o Usar solo Reconocimiento óptico de caracteres (OCR) garantiza que siempre se utilice la misma ruta de procesamiento, independientemente de cómo lleguen los documentos.
Dónde se configura
- Configuración de la Habilidad de OCR — pestaña General, en Procesamiento de imágenes
- Configuración de la Actividad de OCR dentro de una Habilidad de proceso — pestaña General, en Procesamiento de imágenes
