Para crear un skill de OCR, siga estos pasos:Documentation Index
Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt
Use this file to discover all available pages before exploring further.
Crear un nuevo skill de OCR
En Skill Catalog, haga clic en el botón Create de la barra de herramientas.
Seleccionar el tipo de skill de OCR
Seleccione el tipo de skill OCR Skill. Se abrirá el cuadro de diálogo Create OCR Skill.
Configurar los ajustes generales
En la pestaña General:
- Introduzca un nombre y una descripción para el nuevo skill.
- Seleccione la versión de Technology Core. Recomendamos seleccionar la versión más reciente.
- Default (recomendado) — usa la capa de texto PDF incrustada cuando está disponible y la complementa con OCR según sea necesario. Esta es la configuración predeterminada.
- Use Text Layer Only — extrae texto de la capa de texto PDF incrustada. Si no existe ninguna capa de texto, Vantage recurre automáticamente a OCR.
- Use OCR Only — ignora cualquier capa de texto PDF incrustada y realiza un OCR completo del documento.
Para obtener más información sobre cada modo y recomendaciones sobre cuál elegir, consulte modo de procesamiento de PDF.
Seleccionar idiomas de reconocimiento
En la pestaña Languages:
- En la sección Allowed Languages, seleccione uno o varios idiomas de reconocimiento de documentos. Durante el procesamiento, el idioma del documento se elegirá automáticamente entre los idiomas especificados durante la configuración. Tenga en cuenta que el número de idiomas seleccionados puede afectar a la velocidad y la calidad del reconocimiento.
- Si el documento contiene texto escrito a mano, habilite la opción Handwritten en la sección Text Appearance.
Configurar mejoras de imagen
En la pestaña Image Enhancements, Crop Image y Correct Page Orientation están habilitados de forma predeterminada. Si lo desea, desactive estas funciones si sus documentos no las necesitan.
- Crop Image recorta la imagen a los bordes del documento original.
- Correct Page Orientation gira automáticamente la imagen para restaurar su orientación original.
Habilitar el reconocimiento de códigos de barras
En la pestaña Barcodes, habilite los tipos de código de barras que puedan aparecer en sus documentos. El número de tipos de código de barras seleccionados puede afectar a la velocidad de reconocimiento. Si no necesita reconocer ningún código de barras, haga clic en el botón con el número de opciones seleccionadas en el encabezado de la tabla Barcode Types y luego en Deselect all.
Formatos de exportación disponibles
- JSON (formato predeterminado):
- Solo texto (opción predeterminada). El archivo JSON exportado contendrá únicamente el texto reconocido sin preservar el diseño del documento. Si selecciona Solo texto, no podrá exportar a DOCX, XLSX y PPTX.
- Conservar la estructura del documento. El archivo JSON exportado contendrá el texto reconocido y también se preservará el diseño del documento.
- XML:
- Solo texto. El archivo XML exportado contendrá únicamente el texto reconocido. No se preservará el diseño del documento. Si selecciona Solo texto, no podrá exportar a DOCX, XLSX y PPTX.
- Conservar la estructura del documento. El archivo XML exportado contendrá el texto reconocido y se preservará el diseño del documento.
- ALTOXML:
- Solo texto. El archivo ALTO XML exportado contendrá únicamente el texto reconocido; no se preservará el diseño del documento. Si selecciona Solo texto, no podrá exportar a DOCX, XLSX y PPTX.
- Conservar la estructura del documento. El archivo ALTO XML exportado contendrá el texto reconocido y se preservará el diseño del documento.
- PDF:
- PDF/A-3a (formato de exportación de PDF predeterminado)
- PDF/A-3b
- Solo imagen. PDF no editable según el estándar PDF/A-3b
- TXT
- DOCX (Microsoft Word):
- Editable. El archivo DOCX exportado preserva el formato y el flujo de texto originales, pero al mismo tiempo permite una edición sencilla. El documento de salida puede diferir de la imagen original.
- Exacto. El archivo DOCX exportado mantiene el formato del documento original. Esto puede limitar los cambios que se pueden realizar en el texto y el formato del documento de salida.
- XLSX (Microsoft Excel)
- TIFF
- JPEG:
- Calidad máxima. El archivo exportado contiene un JPEG con un nivel de compresión del 95%.
- Tamaño reducido. El archivo exportado contiene un JPEG con un nivel de compresión del 75%.
- PPTX (Microsoft PowerPoint)
- HTML
skill de OCR
Descripción general del skill de OCR y de los datos que puede extraer.
Modo de procesamiento de PDF
Controla si Vantage usa la capa de texto incrustada del PDF, OCR o una combinación de ambos.
Actividad de OCR
Ejecuta un skill de OCR como parte del workflow de una Habilidad de proceso.
Formatos de exportación de datos
Referencia de cada formato y opción de exportación.
Technology Core versions
Elige la versión del motor que utiliza un skill.
