Reconocimiento óptico de caracteres (OCR) y otras tecnologías de reconocimiento

Reconocimiento óptico de caracteres (OCR)

La tecnología de Reconocimiento óptico de caracteres (OCR) —reconocimiento de texto impreso— está disponible para 211 idiomas, entre ellos:
- Idiomas europeos (alfabetos latino, cirílico, armenio y griego)
- Chino (simplificado y tradicional), japonés y coreano (CJK)
- Árabe, tailandés, vietnamita, hebreo y farsi
- Birmano — versión preliminar técnica
- FineReader XIX — un módulo de Reconocimiento óptico de caracteres (OCR) diseñado específicamente para digitalizar y archivar documentos antiguos, libros y periódicos publicados entre los siglos XVII y XX, muchos de ellos raros y únicos. Conservados en los archivos históricos de bibliotecas y organismos gubernamentales, constituyen un patrimonio nacional que debe preservarse. FineReader XIX ofrece una capacidad única para reconocer textos publicados entre 1600 y 1937 en inglés, francés, alemán, italiano y español. Admite el reconocimiento de tipografías antiguas como Fraktur, Schwabacher y la mayoría de las tipografías góticas.

56 idiomas cuentan con compatibilidad con diccionario y morfología, lo que mejora significativamente la precisión del Reconocimiento óptico de caracteres (OCR).
La función de reconocimiento de documentos multilingües permite reconocer varios idiomas en un mismo documento; por ejemplo, alemán y chino, o inglés, ruso y coreano.
Reconocimiento de documentos de matriz de puntos — ABBYY FineReader Engine reconoce textos impresos de matriz de puntos de muchos tipos. Se ha entrenado con varios miles de muestras producidas por diversos tipos de impresoras, incluidas impresoras de matriz de puntos, de margarita, de cadena y de banda, así como con modos de impresión borrador y Near Letter Quality (NLQ).
Reconocimiento de documentos mecanografiados.
Reconocimiento de las fuentes OCR-A, OCR-B, MICR (E13B) y CMC7.

Consulte la lista completa de idiomas compatibles y los tipos de texto.

Reconocimiento Inteligente de Caracteres (ICR)

Tecnología ICR: reconocimiento de caracteres manuscritos en letra de imprenta para más de 126 idiomas.
39 idiomas (con alfabetos latino, griego y cirílico) con compatibilidad con morfología y diccionarios.
ICR para dígitos índicos utilizados en los países árabes.
30 estilos regionales de escritura a mano en letra de imprenta utilizados en distintos países y regiones del mundo (para los idiomas ICR compatibles).
Reconocimiento de caracteres manuscritos en letra de imprenta en campos y recuadros: campos subrayados, casillas, campos de estilo peine, etc.
ICR multilingüe. Una de las principales ventajas de la tecnología ICR de ABBYY es que ofrece prácticamente la misma alta precisión con dígitos y con dígitos combinados con letras de uno o varios idiomas, incluso si los campos contienen letras tanto mayúsculas como minúsculas.

Reconocimiento óptico de marcas (OMR)

La tecnología OMR de ABBYY reconoce marcas de selección simples, marcas de selección agrupadas, marcas de selección modelo y marcas de selección con “correcciones” hechas a mano en distintas variantes:

marcas de selección dentro de un recuadro cuadrado
marcas de selección sobre un fondo en blanco
tipos de marcas de selección no estándar (las marcas especiales requieren entrenamiento antes de que pueda reconocerlas)

OMR ofrece una precisión del 99,995 %

Reconocimiento óptico de códigos de barras (OBR)

Tipos de códigos de barras 1D y 2D. ABBYY Reconocimiento óptico de caracteres (OCR) SDK admite el reconocimiento de los tipos de códigos de barras 1D y 2D más habituales. Consulte la lista de tipos de códigos de barras admitidos.
Extracción rápida de códigos de barras. Esta función permite detectar y reconocer automáticamente códigos de barras en un documento, independientemente de su orientación. Funciona tanto con códigos de barras 1D como 2D

Modos de reconocimiento

Con los modos de procesamiento predefinidos del motor, los desarrolladores pueden configurar y ajustar rápidamente la velocidad y la precisión del procesamiento de la forma que mejor se adapte a sus necesidades. Además del modo de procesamiento predeterminado, tanto el reconocimiento de Reconocimiento óptico de caracteres (OCR) como el ICR pueden realizarse en los modos de reconocimiento normal, rápido y preciso:

Modo de reconocimiento preciso Es el modo más preciso para obtener la máxima calidad de reconocimiento. Se recomienda especialmente si tiene previsto reutilizar el contenido reconocido y en otras tareas en las que la precisión es un factor de importancia crítica.
Modo de reconocimiento rápido Está diseñado para el procesamiento de grandes volúmenes de documentos y para los casos en los que la velocidad es prioritaria. Este modo aumenta la velocidad de procesamiento entre un 200 % y un 250 %, lo que hace que esta tecnología sea ideal para su uso en sistemas de gestión de contenido (CMS), gestión documental (DMS) y archivado.
Modo de reconocimiento normal Establece valores intermedios de precisión y velocidad de reconocimiento entre los modos Preciso y Rápido. En general, ofrece una mayor velocidad con prácticamente el mismo nivel de precisión que el modo Preciso.

Reconocimiento de texto completo y a nivel de campo

Hay dos tipos de reconocimiento que pueden diferenciarse: el reconocimiento de texto completo y el reconocimiento a nivel de campo. La principal diferencia es que el reconocimiento de texto completo suele incluir la tecnología de Reconocimiento óptico de caracteres (OCR) y se utiliza para la conversión de documentos. El reconocimiento a nivel de campo incluye Reconocimiento óptico de caracteres (OCR), ICR y otras tecnologías que se utilizan en áreas específicas para reconocer y extraer datos concretos. La siguiente tabla muestra las especificaciones de estos tipos de reconocimiento:

Especificación	Reconocimiento de texto completo	Reconocimiento a nivel de campo
Dónde se usa	Conversión de documentos, archivado de libros	Captura de datos
Análisis de documentos	Análisis general de documentos, análisis de documentos para facturas, análisis de documentos para indexación de texto completo	Especificación manual de bloques para reconocimiento a nivel de campo
Reconocimiento	Reconocimiento óptico de caracteres (OCR) con una precisión general de aproximadamente el 96-99 %	Reconocimiento óptico de caracteres (OCR), ICR, OMR y reconocimiento de códigos de barras con tipos de datos y rangos de valores predefinidos. La precisión es de aproximadamente el 100 %
Verificación	Recomendada para la reutilización del contenido	Obligatoria en la mayoría de los casos
Síntesis	Se usa para la recuperación de documentos	No se usa
Exportación de resultados de reconocimiento	Archivos de documentos (RTF, DOCX, PDF, etc.)	Exportación a archivo XML o base de datos

Reconocimiento de texto completo El reconocimiento de texto completo es un tipo básico de reconocimiento para distintas tareas, como:

Archivado de documentos
Conversión de documentos para reutilización de contenido
Extracción del texto base para la detección de campos y la clasificación de documentos

Todas ellas requieren el reconocimiento (Reconocimiento óptico de caracteres (OCR)) de todo el texto del documento (página). Antes del reconocimiento, el análisis del documento suele encargarse de dividir y orientar correctamente las páginas, así como de detectar bloques de texto, imágenes y otros objetos. Después del Reconocimiento óptico de caracteres (OCR), la síntesis del documento reconstruye la estructura y el diseño del documento (para la tarea de reutilización de contenido) o simplemente recupera el orden correcto del texto en documentos complejos con varias columnas de texto e imágenes (para el escenario de archivado). El texto resultante se exporta, según la tarea, como texto sin formato o como documento en un formato compatible. El texto puede verificarse manualmente para aumentar su precisión, especialmente si se va a reutilizar más adelante. Reconocimiento a nivel de campo ABBYY FineReader Engine 12 ofrece capacidades completas de reconocimiento a nivel de campo para respaldar procesos empresariales clave, como el procesamiento de formularios, la clasificación por palabras clave y la indexación por palabras clave. Sus potentes funciones de procesamiento de imágenes aumentan su capacidad para detectar de forma inteligente pequeñas zonas, independientemente de su calidad y de cualquier particularidad gráfica que pueda afectar a la precisión del reconocimiento (es decir, texto subrayado, ruido posterior al escaneo, espacios en el texto, etc.). La funcionalidad clave para el reconocimiento a nivel de campo o zonal incluye Reconocimiento óptico de caracteres (OCR) e ICR multilingües, OMR, reconocimiento de códigos de barras y una serie de funciones específicas, como:

Extracción de datos de campos con diversos bordes y marcos delimitadores, incluidos cuadros combinados, campos subrayados, casillas e incluso campos en los que los datos no caben dentro del borde del campo
Definición del contenido del campo mediante la configuración de alfabetos, diccionarios, expresiones regulares, tipos de segmentación, estilos de escritura a mano (solo Windows), etc.
Detección de espaciado dentro del campo, con reconocimiento preciso de campos en los que se permiten espacios. ABBYY FineReader Engine 12 también permite usar diccionarios que contienen combinaciones de palabras con espacios
Procesamiento inteligente de bloques con partes y líneas que se cruzan, que permite reconocer texto (palabras y símbolos) ubicado completamente dentro de los bordes del bloque, lo que ahorra tiempo dedicado al reconocimiento de bloques de texto no relevantes
Eliminación de motas en bloques de texto, con la posibilidad de especificar el tamaño del “ruido” blanco o negro

El reconocimiento a nivel de campo cuenta con el respaldo de herramientas especiales del motor para desarrolladores, como Voting API y ajuste del reconocimiento “On-the-Fly”. Para obtener más información, consulte Herramientas avanzadas de desarrollo.

Idiomas de usuario

ABBYY FineReader Engine proporciona una API para crear y editar idiomas de reconocimiento, crear copias de idiomas de reconocimiento predefinidos y ajustarlos, y añadir palabras nuevas a los idiomas de usuario. Por ejemplo, si un documento contiene “estructuras” como códigos de producto, números de teléfono, números de pasaporte, etc., pueden producirse errores de reconocimiento. Esto se debe a que el programa lee esas estructuras letra por letra. Para mejorar el reconocimiento de códigos de producto y elementos similares, puede crear un nuevo idioma de reconocimiento que ayude al programa a leer correctamente tipos específicos de datos. A continuación se muestran dos ejemplos que ilustran cómo los idiomas de usuario pueden ayudarle a mejorar la calidad del reconocimiento:

En los documentos rellenados a mano, los valores de los campos del formulario suelen pertenecer a un conjunto específico, como nombres de ciudades, países, códigos postales, códigos de producto, importes, etc. Para mejorar la calidad del reconocimiento ICR, puede usar idiomas de usuario para describir la información que puede introducirse en cada campo.
Si un documento contiene “estructuras” como códigos de producto, números de teléfono, números de pasaporte, etc., pueden producirse errores de reconocimiento. Esto se debe a que el programa lee esas estructuras letra por letra. Para mejorar el reconocimiento de códigos de producto y elementos similares, puede crear un nuevo idioma de reconocimiento que ayude al programa a leer correctamente tipos específicos de datos.

Entrenamiento de patrones

En la gran mayoría de los casos, ABBYY FineReader Engine puede reconocer textos correctamente sin entrenamiento previo. Sin embargo, en casos como el reconocimiento de fuentes decorativas o con contorno, o el procesamiento masivo de documentos de baja calidad de impresión, el entrenamiento de patrones previo puede resultar útil. El SDK de Reconocimiento óptico de caracteres (OCR) le permite crear y utilizar patrones de usuario directamente mediante la API. Puede entrenar patrones cargando imágenes y asociándolas con los caracteres correspondientes.

Consulte también

Funciones clave Guía guiada para entrenar patrones de usuario - Solo para Windows Herramientas avanzadas de desarrollo