- En el Skill Catalog, haz clic en el botón Create de la barra de herramientas.
- Selecciona el tipo de skill OCR Skill. Se abrirá el cuadro de diálogo Create OCR Skill.
- En la pestaña General, introduce un nombre y una descripción para la nueva skill.
- En la pestaña Languages:
a. En la sección Allowed Languages, selecciona uno o varios idiomas de reconocimiento de documentos. Durante el procesamiento, el idioma del documento se elegirá automáticamente entre los idiomas especificados durante la configuración. Ten en cuenta que la cantidad de idiomas seleccionados puede afectar la velocidad y la calidad del reconocimiento.
b. Si el documento contiene texto manuscrito, habilita la opción Handwritten en la sección Text Appearance. - En la pestaña Image Enhancements, Crop Image y Correct Page Orientation están habilitadas de forma predeterminada. Opcionalmente, desactiva estas funciones si tus documentos no las requieren.
Crop Image recorta la imagen hasta los bordes del documento original. Correct Page Orientation rota automáticamente la imagen para restaurar su orientación original. - En la pestaña Barcodes, habilita los tipos de códigos de barras que puedan aparecer en tus documentos. La cantidad de tipos de códigos de barras seleccionados puede afectar la velocidad de reconocimiento.
Importante: Si estás procesando varios archivos de documentos utilizando una skill de OCR como parte de una única transacción, todos los archivos se combinarán en uno. Como resultado, la cantidad de archivos de salida será idéntica a la cantidad especificada de formatos de exportación. - En la pestaña Export, selecciona uno o varios formatos de exportación de documentos. Para obtener más información, consulta Available Export Formats.
Formatos de exportación disponibles
- JSON (formato predeterminado):
- Solo texto (opción predeterminada). El archivo JSON exportado contendrá únicamente el texto reconocido sin preservar el diseño del documento. Si selecciona Solo texto, no podrá exportar a DOCX, XLSX y PPTX.
- Conservar la estructura del documento. El archivo JSON exportado contendrá el texto reconocido y también se preservará el diseño del documento.
- XML:
- Solo texto. El archivo XML exportado contendrá únicamente el texto reconocido. No se preservará el diseño del documento. Si selecciona Solo texto, no podrá exportar a DOCX, XLSX y PPTX.
- Conservar la estructura del documento. El archivo XML exportado contendrá el texto reconocido y se preservará el diseño del documento.
- ALTOXML:
- Solo texto. El archivo ALTO XML exportado contendrá únicamente el texto reconocido; no se preservará el diseño del documento. Si selecciona Solo texto, no podrá exportar a DOCX, XLSX y PPTX.
- Conservar la estructura del documento. El archivo ALTO XML exportado contendrá el texto reconocido y se preservará el diseño del documento.
Importante: Las opciones de exportación (Solo texto y Conservar la estructura del documento) para JSON, XML y ALTOXML no pueden ser diferentes. Si especifica otra opción de exportación para uno de estos formatos, esta opción se aplicará a los demás formatos.
- PDF:
- PDF/A-3a (formato de exportación de PDF predeterminado)
- PDF/A-3b
- Solo imagen. PDF no editable según el estándar PDF/A-3b
Tip: Para cada opción de exportación de PDF, elija entre “tamaño de archivo más pequeño” (opción predeterminada) y “calidad máxima”. El tamaño de archivo más pequeño se logra utilizando la compresión Mixed Raster Content (MRC), que determina tasas de compresión óptimas por separado para el texto, las imágenes y el fondo.
- TXT
- DOCX (Microsoft Word):
- Editable. El archivo DOCX exportado preserva el formato y el flujo de texto originales, pero al mismo tiempo permite una edición sencilla. El documento de salida puede diferir de la imagen original.
- Exacto. El archivo DOCX exportado mantiene el formato del documento original. Esto puede limitar los cambios que se pueden realizar en el texto y el formato del documento de salida.
- XLSX (Microsoft Excel)
- TIFF
- JPEG:
- Calidad máxima. El archivo exportado contiene un JPEG con un nivel de compresión del 95%.
- Tamaño reducido. El archivo exportado contiene un JPEG con un nivel de compresión del 75%.
- PPTX (Microsoft PowerPoint)
- HTML
