Análisis de documentos - ABBYY Documentation

Funciones básicas del análisis de documentos

El análisis de documentos es un conjunto de funciones para detectar automáticamente los siguientes objetos en una página:

Bloques de texto
Imágenes
Tablas y celdas de tabla
Códigos de barras
Separadores

Además, el análisis de documentos ofrece algunas funciones especiales para preparar la imagen para el reconocimiento óptico de caracteres (OCR):

detectar la orientación de la página: 90, 180 y 270 grados
dividir páginas dobles
detectar texto vertical en celdas de tabla
detectar y marcar bloques de ruido en la página

Esta preparación es fundamental para especificar qué campos de la página deben reconocerse y qué debe conservarse en su forma original. También es posible seleccionar manualmente el campo que se va a reconocer. En este caso, debe establecer las coordenadas del campo y el tipo de datos que contiene. Esto se utiliza principalmente en el escenario de Field-Level Recognition para la captura de datos. ABBYY FineReader Engine 12 ofrece 3 tipos automáticos y 1 manual de análisis de documentos:

Análisis general de documentos

Este es el tipo de análisis de documentos predeterminado que detecta todos los objetos: bloques de texto, imágenes, tablas, códigos de barras y separadores. Los resultados de este análisis se utilizan para recuperar la estructura y la disposición del documento en el escenario de reutilización de contenido. Todas las imágenes y los diagramas se conservan en su forma original, sin reconocer el texto que contienen.

Análisis de documentos para facturas

Se trata de un motor de preprocesamiento para documentos semiestructurados, como facturas, órdenes de pago, recibos, cartas de porte, tarjetas de presentación, contratos, formularios de reclamaciones médicas, currículums, etc. Se ha diseñado para localizar con precisión todo el texto de estos documentos, incluidos caracteres y números, incluso si esta información se encuentra dentro de sellos, imágenes, logotipos o zonas con texto pequeño. A diferencia del análisis estándar de documentos a página completa, este asume que toda la información impresa de los documentos es texto. También garantiza que la información textual importante no se identifique como elementos gráficos y que las palabras o los valores numéricos no se dividan en caracteres individuales. Como resultado, se dispone de la mayor cantidad posible de información sobre el texto, incluidas sus coordenadas, para su análisis, el procesamiento campo por campo y el análisis sintáctico en etapas posteriores del procesamiento por otros sistemas.

Análisis de documentos para la indexación de texto completo

Detecta y reconoce automáticamente todo el texto de los documentos, incluido el texto incrustado en imágenes, gráficos y diagramas. Los desarrolladores pueden optar por usar este modo de análisis de documentos para extraer toda la información de texto completo necesaria para crear índices documentales (como en sistemas DMS, CMS y de archivado).

Especificación manual de bloques para el reconocimiento a nivel de campo

Este caso no requiere ningún análisis, ya que el usuario o la aplicación definen directamente el campo de reconocimiento. El reconocedor recibe las coordenadas del campo y el tipo de texto, y realiza Reconocimiento óptico de caracteres (OCR) en la zona especificada.

Consulte también

Características principales

​Funciones básicas del análisis de documentos

​Análisis general de documentos

​Análisis de documentos para facturas

​Análisis de documentos para la indexación de texto completo

​Especificación manual de bloques para el reconocimiento a nivel de campo

​Consulte también