Reconocimiento óptico de caracteres (OCR)
- La tecnología de Reconocimiento óptico de caracteres (OCR) —reconocimiento de texto impreso— está disponible para 211 idiomas, entre ellos:
- Idiomas europeos (alfabetos latino, cirílico, armenio y griego)
- Chino (simplificado y tradicional), japonés y coreano (CJK)
- Árabe, tailandés, vietnamita, hebreo y farsi
- Birmano — versión preliminar técnica
- FineReader XIX — un módulo de Reconocimiento óptico de caracteres (OCR) diseñado específicamente para digitalizar y archivar documentos antiguos, libros y periódicos publicados entre los siglos XVII y XX, muchos de ellos raros y únicos. Conservados en los archivos históricos de bibliotecas y organismos gubernamentales, constituyen un patrimonio nacional que debe preservarse. FineReader XIX ofrece una capacidad única para reconocer textos publicados entre 1600 y 1937 en inglés, francés, alemán, italiano y español. Admite el reconocimiento de tipografías antiguas como Fraktur, Schwabacher y la mayoría de las tipografías góticas.

- 56 idiomas cuentan con compatibilidad con diccionario y morfología, lo que mejora significativamente la precisión del Reconocimiento óptico de caracteres (OCR).
- La función de reconocimiento de documentos multilingües permite reconocer varios idiomas en un mismo documento; por ejemplo, alemán y chino, o inglés, ruso y coreano.
- Reconocimiento de documentos de matriz de puntos — ABBYY FineReader Engine reconoce textos impresos de matriz de puntos de muchos tipos. Se ha entrenado con varios miles de muestras producidas por diversos tipos de impresoras, incluidas impresoras de matriz de puntos, de margarita, de cadena y de banda, así como con modos de impresión borrador y Near Letter Quality (NLQ).
- Reconocimiento de documentos mecanografiados.
- Reconocimiento de las fuentes OCR-A, OCR-B, MICR (E13B) y CMC7.
Reconocimiento Inteligente de Caracteres (ICR)
- Tecnología ICR: reconocimiento de caracteres manuscritos en letra de imprenta para más de 126 idiomas.
- 39 idiomas (con alfabetos latino, griego y cirílico) con compatibilidad con morfología y diccionarios.
- ICR para dígitos índicos utilizados en los países árabes.
- 30 estilos regionales de escritura a mano en letra de imprenta utilizados en distintos países y regiones del mundo (para los idiomas ICR compatibles).
- Reconocimiento de caracteres manuscritos en letra de imprenta en campos y recuadros: campos subrayados, casillas, campos de estilo peine, etc.
- ICR multilingüe. Una de las principales ventajas de la tecnología ICR de ABBYY es que ofrece prácticamente la misma alta precisión con dígitos y con dígitos combinados con letras de uno o varios idiomas, incluso si los campos contienen letras tanto mayúsculas como minúsculas.
Reconocimiento óptico de marcas (OMR)
- marcas de selección dentro de un recuadro cuadrado
- marcas de selección sobre un fondo en blanco
- tipos de marcas de selección no estándar (las marcas especiales requieren entrenamiento antes de que pueda reconocerlas)
Reconocimiento óptico de códigos de barras (OBR)
- Tipos de códigos de barras 1D y 2D. ABBYY Reconocimiento óptico de caracteres (OCR) SDK admite el reconocimiento de los tipos de códigos de barras 1D y 2D más habituales. Consulte la lista de tipos de códigos de barras admitidos.
- Extracción rápida de códigos de barras. Esta función permite detectar y reconocer automáticamente códigos de barras en un documento, independientemente de su orientación. Funciona tanto con códigos de barras 1D como 2D
Modos de reconocimiento
- Modo de reconocimiento preciso
- Modo de reconocimiento rápido
- Modo de reconocimiento normal
Reconocimiento de texto completo y a nivel de campo
| Especificación | Reconocimiento de texto completo | Reconocimiento a nivel de campo |
|---|---|---|
| Dónde se usa | Conversión de documentos, archivado de libros | Captura de datos |
| --- | --- | --- |
| Análisis de documentos | Análisis general de documentos, análisis de documentos para facturas, análisis de documentos para indexación de texto completo | Especificación manual de bloques para reconocimiento a nivel de campo |
| Reconocimiento | OCR con una precisión general de aproximadamente el 96-99 % | OCR, ICR, OMR y reconocimiento de códigos de barras con tipos de datos y rangos de valores predefinidos. La precisión es de aproximadamente el 100 % |
| Verificación | Recomendada para la reutilización del contenido | Obligatoria en la mayoría de los casos |
| Síntesis | Se usa para la recuperación de documentos | No se usa |
| Exportación de resultados de reconocimiento | Archivos de documentos (RTF, DOCX, PDF, etc.) | Exportación a archivo XML o base de datos |
- Archivado de documentos
- Conversión de documentos para reutilización de contenido
- Extracción del texto base para la detección de campos y la clasificación de documentos
- Extracción de datos de campos con diversos bordes y marcos, incluidos cuadros combinados, campos subrayados, casillas e incluso campos en los que los datos no caben dentro del borde del campo
- Definición del contenido del campo mediante la configuración de alfabetos, diccionarios, expresiones regulares, tipos de segmentación, estilos de escritura a mano (solo Windows), etc.
- Detección de espaciado dentro del campo, con reconocimiento preciso de campos en los que se permiten espacios. ABBYY FineReader Engine 12 también permite usar diccionarios que contienen combinaciones de palabras con espacios
- Procesamiento inteligente de bloques con partes y líneas que se cruzan, que permite reconocer texto (palabras y símbolos) ubicado completamente dentro de los bordes del bloque, lo que ahorra tiempo dedicado al reconocimiento de bloques de texto no relevantes
- Eliminación de motas en bloques de texto, con la posibilidad de especificar el tamaño del “ruido” blanco o negro
Idiomas de usuario
- En los documentos rellenados a mano, los valores de los campos del formulario suelen pertenecer a un conjunto específico, como nombres de ciudades, países, códigos postales, códigos de producto, importes, etc. Para mejorar la calidad del reconocimiento ICR, puede usar idiomas de usuario para describir la información que puede introducirse en cada campo.
- Si un documento contiene “estructuras” como códigos de producto, números de teléfono, números de pasaporte, etc., pueden producirse errores de reconocimiento. Esto se debe a que el programa lee esas estructuras letra por letra. Para mejorar el reconocimiento de códigos de producto y elementos similares, puede crear un nuevo idioma de reconocimiento que ayude al programa a leer correctamente tipos específicos de datos.
