Modo de procesamiento de PDF - ABBYY Documentation

Cuando ABBYY Vantage procesa un documento PDF, debe decidir cómo extraer el texto. Los PDF pueden contener una capa de texto incrustada (texto con capacidad de búsqueda escrito directamente en el archivo) o pueden ser archivos compuestos solo por imágenes que requieren Reconocimiento óptico de caracteres (OCR) para extraer el texto. La configuración Modo de procesamiento de PDF le brinda un control explícito sobre el método que usa Vantage. Esto resulta especialmente útil cuando:

Trabaja en sectores regulados donde se exige reproducibilidad y trazabilidad de los resultados de extracción.
Su conjunto de documentos contiene PDF con capas de texto incrustadas de baja calidad o poco fiables que darían mejores resultados con Reconocimiento óptico de caracteres (OCR).
Está migrando desde ABBYY FlexiCapture y necesita replicar el comportamiento de procesamiento de sus flujos de trabajo existentes.
Necesita un comportamiento de procesamiento uniforme y predecible en todos los documentos, independientemente de su contenido.

Modos disponibles

Modo	Descripción	Cuándo usarlo
Predeterminado (Recomendado)	Usa la capa de texto incrustada del PDF cuando está disponible y la complementa con Reconocimiento óptico de caracteres (OCR) según sea necesario. Este es el comportamiento de procesamiento estándar de Vantage.	Uso general. Recomendado para la mayoría de los conjuntos de documentos con una combinación de PDF con capa de texto y PDF formados solo por imágenes.
Usar solo la capa de texto	Extrae texto exclusivamente de la capa de texto incrustada del PDF. Si no existe una capa de texto, Vantage recurre automáticamente al Reconocimiento óptico de caracteres (OCR).	Úselo cuando disponga de capas de texto confiables y de alta calidad, y quiera una extracción más rápida sin Reconocimiento óptico de caracteres (OCR) completo. Resulta útil en entornos regulados donde la capa de texto existente es la fuente autorizada.
Usar solo OCR	Omite cualquier capa de texto incrustada del PDF y realiza Reconocimiento óptico de caracteres (OCR) completo en cada página del documento.	Úselo cuando se sepa que las capas de texto del PDF no son confiables o están dañadas, o cuando necesite una extracción uniforme basada en Reconocimiento óptico de caracteres (OCR) en todos los documentos, independientemente de su estructura.

Escenarios de ejemplo

Los siguientes ejemplos muestran situaciones habituales en las que cada modo es la mejor opción.

Usar solo la capa de texto

Su organización procesa facturas en PDF nativas digitales exportadas desde el sistema ERP de un proveedor. La capa de texto incrustada es precisa y se genera automáticamente. Usar Usar solo la capa de texto permite una extracción rápida y fiable sin ejecutar Reconocimiento óptico de caracteres (OCR) innecesario.

Predeterminado (recomendado)

Procesa un gran volumen combinado de documentos en papel escaneados y PDF nativos digitales en el mismo flujo de trabajo. Algunos archivos tienen capas de texto limpias; otros, no. Predeterminado (recomendado) gestiona ambos casos automáticamente sin necesidad de configuración por documento.

Usar solo OCR

Su conjunto de documentos consta de PDF generados por un sistema de escaneo heredado que incrusta una capa de texto de baja calidad durante el escaneo. Esa capa incrustada contiene errores de reconocimiento que perjudican la extracción de campos. Usar solo OCR la omite por completo y extrae texto limpio directamente de la imagen de la página.

Entornos regulados

Trabaja en un sector regulado (como los servicios financieros o la atención sanitaria) en el que los resultados de la extracción deben ser totalmente reproducibles y auditables. Fijar el modo en Usar solo la capa de texto o Usar solo OCR garantiza que siempre se utilice la misma ruta de procesamiento, independientemente de cómo lleguen los documentos.

Dónde se configura

La opción Modo de procesamiento de PDF está disponible en las siguientes ubicaciones:

Configuración de la skill de OCR — pestaña General, en Procesamiento de imágenes
Configuración de la actividad de OCR dentro de una Habilidad de proceso — pestaña General, en Procesamiento de imágenes

Versiones compatibles de Technology Core

El modo de procesamiento de PDF es compatible con skills que usan Technology Core 3. No está disponible para versiones anteriores de Technology Core.

​Modos disponibles

​Escenarios de ejemplo

​Dónde se configura

​Versiones compatibles de Technology Core

​Temas relacionados

Modos disponibles

Escenarios de ejemplo

Dónde se configura

Versiones compatibles de Technology Core

Temas relacionados