Saltar al contenido principal

Comparación de documentos

Nuevo módulo “Comparar documentos”Para verificar rápidamente la integridad del documento, el nuevo módulo “Comparar documentos” de ABBYY FineReader Engine permite detectar diferencias de contenido entre dos versiones del mismo documento.
Comparación de documentos bilingüesLa nueva opción del módulo “Comparar documentos” permite detectar automáticamente el carácter bilingüe de este tipo de documento y su estructura compleja, y comparar cada columna (y, por tanto, cada versión en un idioma) por separado.

Formatos ofimáticos de entrada en Linux y Windows

Procesamiento de documentos ofimáticos

Además de una amplia variedad de formatos de imagen, FineReader Engine ahora puede procesar documentos de entrada creados en alguno de los siguientes formatos de documentos ofimáticos:

  • Documentos de texto: .doc, .docx, .rtf, .htm / .html, .txt, .odt
  • Hojas de cálculo: .xls, .xlsx, .ods
  • Presentaciones: .ppt, .pptx, .odp

Apertura de documentos ofimáticos desde memoria

El nuevo método para abrir archivos de Microsoft Office y Apache OpenOffice directamente desde memoria permite agilizar la etapa de importación de documentos, lo que acelera el procesamiento general de los documentos.

Captura de MRZ

Captura de datos desde una zona de lectura mecánica (MRZ)La nueva función permite extraer automáticamente datos de la zona de lectura mecánica (MRZ) de los documentos de identidad y agiliza la introducción y verificación de datos personales durante los procesos de incorporación o verificación de clientes.

OCR japonés mejorado

Precisión de reconocimiento de primer nivelCon la nueva versión de ABBYY Fine Reader Engine, el OCR japonés ha mejorado considerablemente y ha llevado la precisión de reconocimiento a un nivel antes inalcanzable para la mayoría de las soluciones.

OCR árabe mejorado

Reconocimiento integral de árabe en imágenes de baja calidadOCR árabe en imágenes de baja calidad, en las que la tecnología general ofrece resultados poco fiables y con muchos errores.

OCR coreano mejorado

Modelo lingüístico de aprendizaje profundo para coreanoUn modelo entrenado para el idioma coreano selecciona la mejor variante de reconocimiento de palabras a partir de hipótesis de reconocimiento, o incluso genera una nueva en función del contexto de reconocimiento (palabras anteriores y posteriores).
Nuevas tecnologías de OCR basadas en redes neuronales

Mejoras en las tecnologías de OCR

Gracias a los enfoques basados en redes neuronales aplicados al OCR, ABBYY FineReader Engine se ha mejorado para procesar símbolos latinos manuscritos y en letra de imprenta:

  • Modelo lingüístico para una selección coherente y precisa de variantes de palabras
  • Reconocimiento de extremo a extremo para escrituras latinas a fin de procesar documentos multilingües

Tecnología de reconocimiento de códigos de barras mediante aprendizaje automático

La arquitectura de red neuronal introduce un nuevo modelo de reconocimiento de código de barras que detecta la región aproximada de un código de barras, lo clasifica y genera una salida representada como una región con el tipo de código de barras más probable.

Nuevo modo de reconocimiento

El nuevo modo Accurate le permite obtener la máxima calidad del documento de salida, a costa de una reducción razonable de la velocidad de reconocimiento. Este modo es el más adecuado para facturas, contratos, recibos y documentos de identidad de baja calidad o generados a partir de fotos.

Mejoras en la calidad del OCR para el texto cercano a sellos y firmas

Detección de texto cercano a sellos y firmasCuando un acuerdo contiene sellos o firmas, el texto circundante se reconoce por separado, lo que mejora la calidad de los documentos procesados.

Nuevas opciones de licencia

Uso de la licencia en línea como licencia de red e independienteLa ayuda para desarrolladores de FineReader Engine 12 se ha ampliado con información adicional sobre las distintas formas de licenciar el SDK y describe los diferentes tipos de opciones de licencia en una tabla comparativa fácil de entender.
Uso de períodos de graciaCon la nueva opción, los clientes pueden usar la licencia de ABBYY FineReader Engine durante un tiempo después de la fecha de vencimiento, ampliando así el período de validez de la licencia.

Tecnologías ICR y OMR en la versión para Linux y macOS

Reconocimiento de texto manuscrito y marcas de selecciónCon ABBYY FineReader Engine 12, puede reconocer caracteres manuscritos y en letra de imprenta, así como marcas de selección de varios tipos. Las tecnologías ICR y OMR se implementan para extraer datos de documentos manuscritos y desarrollar nuevas soluciones de extracción de datos.
Capacidad de ejecutar Engine en entornos en la nube
Nuevas opciones de implementaciónEl nuevo tipo de licencia permite la implementación en entornos virtuales y en la nube, lo que le permite ofrecer una gama más amplia de soluciones. El mecanismo de licencia requiere conexión a Internet y admite servidores proxy. <Note> Aplicable a FineReader Engine para Linux y Windows. </Note>
Wrapper de .NET Core en FRE para Windows
Nuevo framework de desarrolloPara aumentar la eficiencia de los equipos de desarrollo que usan contenedores y otros entornos nativos en este popular enfoque de desarrollo e implementación de software, ABBYY FineReader Engine ahora ofrece un wrapper precompilado de .NET Core 6.
Nuevas bibliotecas en ABBYY FineReader Engine
Uso de la biblioteca NeoMLNeoML es un framework integral de aprendizaje automático de código abierto que le permite crear, entrenar e implementar modelos de aprendizaje automático. Este framework es utilizado por ingenieros para tareas de visión artificial y procesamiento del lenguaje natural, incluido el preprocesamiento de imágenes, la clasificación, el análisis de layout de documentos, el Reconocimiento óptico de caracteres (OCR) y la extracción de datos de documentos estructurados y no estructurados.
PDFium integrado para procesar PDFPDFium es una biblioteca nativa multiplataforma conforme con los estándares PDF que controla todas las operaciones relacionadas con PDF, incluido el procesamiento, el análisis, la representación y la obtención de resultados.
Clasificación de documentos mejorada
Clasificación de documentos mediante NLP y aprendizaje automáticoCon ABBYY FineReader Engine 12, los documentos entrantes pueden clasificarse automáticamente en distintas categorías. Se emplean tecnologías de aprendizaje automático, OCR y procesamiento del lenguaje natural para entrenar clasificadores basados en imágenes y en texto con documentos representativos. La información obtenida se utiliza después durante la etapa de clasificación.
Clasificador basado en texto: seguridad avanzada de los datos de entrenamientoPara entrenar y optimizar el clasificador basado en texto, se deben importar documentos que representen cada categoría documental. Para proteger los datos contenidos en estos documentos, los algoritmos hash implementados evitan la posibilidad de recuperar información de los documentos de muestra.
Muestra de demostración de clasificación mejoradaABBYY FineReader Engine puede procesar PDF, imágenes de documentos escaneados o fotografiados, así como documentos en formatos ofimáticos. Para reflejar esta capacidad en el proceso de clasificación, se mejoró la muestra de demostración precompilada proporcionada para clasificación, que ahora también permite importar documentos ofimáticos además de PDF y formatos de imagen.

Ejemplo de código para la interfaz de línea de comandos (CLI)

Ejemplo de código listo para usarCon este ejemplo de código, los desarrolladores pueden aprovechar de forma eficiente las bibliotecas de ABBYY FineReader Engine e integrar capacidades de procesamiento de documentos en aplicaciones de línea de comandos.
Implementación del extractor de metadatos de PDF
Procesamiento de archivos PDF nativos digitalesAuxInfo es un objeto complementario de PDFium que proporciona información de metadatos de un archivo PDF. El equipo de ABBYY R&D PDFTools implementó su propio objeto AuxInfo compatible con PDFium.

Procesamiento mejorado de PDF

Mejoras para PDF con contenido “mixto”
contenidos

ABBYY FineReader Engine ofrece nuevas capacidades para procesar documentos PDF que contienen tanto páginas formadas solo por imágenes como páginas nativas digitales:

  • Reconocimiento adaptativo para mejorar y acelerar el procesamiento de PDF
  • Clasificador de calidad de la capa de texto para conservar una capa de buena calidad en el formato de salida
  • Indicación de la presencia de firma digital en PDF
  • Nuevo modo de reutilización de contenido para procesar documentos con contenido mixto

Uso de contenido adicional en PDF

Para permitir una composición más flexible del contenido del PDF, ABBYY FineReader Engine ofrece nuevas opciones:

  • Apertura de PDF Portfolios y procesamiento de su contenido
  • Adición de imágenes personalizadas al PDF de salida y gestión de su posición
Compatibilidad con idiomas adicionales
OCR en farsiABBYY FineReader Engine incorpora opciones de reconocimiento de farsi actualizadas y mejoradas, lo que facilita un trabajo más eficaz con documentos de Irán, Afganistán y muchos otros países de Oriente Medio.
OCR en georgianoSe añadió el georgiano como nuevo idioma de OCR.
OCR para fórmulas matemáticas simplesLa extracción de caracteres de fórmulas matemáticas simples permite mejorar el reconocimiento de documentos científicos que contienen fórmulas matemáticas simples de una sola línea dentro del texto.
Vista previa técnica de OCR en birmanoSe añadió OCR en birmano como vista previa técnica para mostrar funcionalidades futuras.
Idiomas especiales para la captura de fechas en árabe y japonésFineReader Engine admite idiomas especiales para el reconocimiento de campos en FineReader Engine para Windows. La nueva versión incorpora un reconocimiento de fechas mejorado en árabe y japonés.
Vista previa técnica de OCR en banglaSe añadió OCR en bangla como vista previa técnica para mostrar funcionalidades potenciales.

Recreación mejorada de la estructura del documento

Reconstrucción mejorada de tablasCon ABBYY FineReader Engine 12, las tablas extraídas de los documentos conservan su formato mejor que nunca.
Detección y recreación de columnas equilibradasCuando un documento contiene columnas equilibradas de texto (p. ej., contratos, artículos científicos, artículos, etc.), la estructura original se mantiene intacta, lo que simplifica el procesamiento de documentos.
Nuevo modelo de documento de “una sola columna”Las principales mejoras del nuevo algoritmo se centran en la detección y el análisis de tablas y gráficos.
Análisis mejorado de la estructura de las tablasCon el mecanismo mejorado de conversión de documentos, ABBYY FineReader Engine puede detectar tablas con columnas de números en formato “Accounting”.

Optimización del proceso interno para agilizar el procesamiento

Nuevo esquema de iteración del objeto ILayoutUn nuevo esquema que acelera la iteración del objeto ILayout obtenido tras procesar el documento fuera del proceso principal. <Note> Aplicable a FineReader Engine para Linux y Windows . </Note>

Nuevas opciones de escaneo en FRE para Windows

Más funciones de escaneo

ABBYY FineReader Engine 12 ofrece numerosas funciones de escaneo del dispositivo:

  • eliminación automática de páginas en blanco del documento
  • recorte automático de páginas
  • corrección automática de la inclinación
  • detección automática del color
Documentación en línea
Documentación disponible en líneaAdemás de la documentación integrada, ahora puede usar la versión en línea, que proporciona información oportuna sobre las funciones y capacidades de ABBYY FineReader Engine.

Versiones más recientes de .NET Framework en FRE para Windows

Compatibilidad con wrappers COM Interop de .NET

El paquete de distribución ahora incluye wrappers COM Interop de .NET para las siguientes versiones de .NET Framework:

  • 3.5 SP1
  • 4.6
  • 4.7
  • 4.8
Nuevos formatos de exportación
JSONJSON (JavaScript Object Notation) es un formato de archivo estándar abierto e independiente del lenguaje para transmitir objetos de datos compuestos por pares atributo-valor y tipos de datos de matriz. FineReader Engine ahora admite la exportación de resultados de Reconocimiento óptico de caracteres (OCR) en formato JSON.
Nuevas versiones de ALTOALTO (Analyzed Layout and Text Object) es un esquema XML que define metadatos técnicos para describir la estructura y el contenido de recursos textuales físicos, como las páginas de un libro o un periódico. Las versiones más recientes de este esquema (4.0, 4.1 y 4.2) son compatibles con FineReader Engine 12.
PDF/A-2b y PDF/A-3bPDF/A es una versión del Portable Document Format (PDF) estandarizada por ISO, especializada en el archivado y la conservación a largo plazo de documentos electrónicos. Ahora, FineReader Engine admite todos los niveles de conformidad de PDF/A.

Funcionalidad completa