- Preprocesamiento de las imágenes escaneadas o fotografías
- Reconocimiento de la mayor cantidad posible de texto en una imagen de documento
Implementación del escenario
Los ejemplos de código proporcionados en esta sección son específicos de Windows.
Paso 1. Cargar ABBYY FineReader Engine
Paso 1. Cargar ABBYY FineReader Engine
Para comenzar a trabajar con ABBYY FineReader Engine, es necesario crear el objeto Engine. El objeto Engine es el objeto de nivel superior en la jerarquía de objetos de ABBYY FineReader Engine y proporciona diversas configuraciones globales, algunos métodos de procesamiento y métodos para crear los demás objetos.Para crear el objeto Engine, puede usar la función InitializeEngine. Consulte también otras formas de cargar el objeto Engine (Win).
C#
C++ (COM)
Paso 2. Carga de la configuración para el escenario
Paso 2. Carga de la configuración para el escenario
La configuración más adecuada para este escenario puede seleccionarse en ABBYY FineReader Engine mediante el método LoadPredefinedProfile del objeto Engine. Este método recibe el nombre del perfil como parámetro de entrada. Consulte Working with Profiles para obtener más información.ABBYY FineReader Engine admite 2 variantes de configuración para este escenario:
Si desea cambiar la configuración de procesamiento, utilice los objetos Parameter adecuados. Consulte Optimización adicional para tareas específicas a continuación para obtener más información.
Nombre del perfil | Descripción |
|---|---|
TextExtraction_Accuracy | La configuración se ha optimizado para maximizar la precisión:
|
TextExtraction_Speed | La configuración se ha optimizado para maximizar la velocidad de procesamiento:
|
C#
C++ (COM)
Paso 3. Carga y preprocesamiento de las imágenes
Paso 3. Carga y preprocesamiento de las imágenes
ABBYY FineReader Engine proporciona el objeto FRDocument, que permite procesar documentos de varias páginas.Para cargar las imágenes de un solo documento y preprocesarlas, debe crear el objeto FRDocument y agregarle imágenes. Puede hacerlo de una de las siguientes maneras:
- Crear el objeto FRDocument mediante el método CreateFRDocumentFromImage del objeto Engine. Este método crea el objeto FRDocument y carga las imágenes desde el archivo especificado.
- Crear el objeto FRDocument con ayuda del método CreateFRDocument del objeto Engine y, a continuación, agregar imágenes desde un archivo al objeto FRDocument creado (use el método AddImageFile, AddImageFileWithPassword o AddImageFileWithPasswordCallback del objeto FRDocument).
C#
C++ (COM)
Paso 4. Reconocimiento de documentos
Paso 4. Reconocimiento de documentos
Para reconocer el documento, debe usar los métodos de análisis y reconocimiento del objeto FRDocument. Este objeto proporciona toda una serie de métodos para el análisis y reconocimiento de documentos. El método más práctico, que permite realizar el análisis, el reconocimiento y la síntesis del documento con una sola llamada, es Process. Además, aprovecha de la forma más eficiente las funciones de procesamiento simultáneo de los sistemas multiprocesador y multinúcleo. No obstante, también puede ejecutar de forma secuencial el preprocesamiento, el análisis, el reconocimiento y la síntesis mediante los métodos Preprocess, Analyze, Recognize y Synthesize.
C#
C++ (COM)
Paso 5. Búsqueda de información importante
Paso 5. Búsqueda de información importante
Durante el análisis, ABBYY FineReader Engine selecciona bloques de imagen que contienen texto, tablas, imágenes, etc. Durante el reconocimiento, los bloques que contienen datos de texto se rellenan con el texto reconocido.En ABBYY FineReader Engine, el objeto Layout sirve para almacenar los bloques y el texto reconocido. En el flujo principal de procesamiento de documentos, se trabaja con el layout dentro del objeto FRDocument, que representa el documento que se está procesando. Para acceder al layout de una página del documento, use la propiedad IFRPage::Layout.Para buscar palabras clave, puede consultar el texto reconocido mediante el objeto Text, al que se accede a través de las propiedades de los bloques de texto, tabla o código de barras.Los datos importantes que encuentre pueden guardarse o procesarse según sea necesario. Consulte Optimización adicional para tareas específicas más abajo para obtener información más detallada.
(Opcional) Paso 6. Exportación de documentos
(Opcional) Paso 6. Exportación de documentos
Como alternativa, quizá desee almacenar el texto extraído en un formato fácil de consultar, como TXT, o en un formato estructurado que le permita recuperar fácilmente la información necesaria más adelante, como JSON.Use el método Export del objeto FRDocument con la constante FileExportFormatEnum correspondiente como uno de los parámetros. Puede cambiar los parámetros de exportación predeterminados mediante el objeto de exportación correspondiente. Consulte Optimización adicional para tareas específicas más abajo para obtener más información.Cuando termine de trabajar con el objeto FRDocument, libere todos los recursos utilizados por este objeto. Use el método IFRDocument::Close.
C#
C++ (COM)
Paso 7. Descarga de ABBYY FineReader Engine
Paso 7. Descarga de ABBYY FineReader Engine
Cuando termine de trabajar con ABBYY FineReader Engine, debe descargar el objeto Engine. Para ello, use la función exportada DeinitializeEngine.
C#
C++ (COM)
Recursos necesarios
Optimización adicional para tareas específicas
-
Escaneo: solo para Windows
- Escaneo
Descripción del escenario de ABBYY FineReader Engine para el escaneo de documentos.
- Escaneo
-
Reconocimiento
- Ajuste de los parámetros de preprocesamiento, análisis, reconocimiento y síntesis
Personalización del procesamiento de documentos mediante objetos de parámetros de análisis, reconocimiento y síntesis.
- Ajuste de los parámetros de preprocesamiento, análisis, reconocimiento y síntesis
-
Reconocer escritura a mano
Los perfiles TextExtraction_*** no incluyen el reconocimiento de texto manuscrito ni de texto en letras de imprenta. Si necesita reconocer escritura a mano, establezca la propiedad DetectHandwritten del objeto PageAnalysisParams en TRUE. -
Objeto PageProcessingParams
Este objeto permite personalizar los parámetros de análisis y reconocimiento. Con este objeto, puede indicar qué características de la imagen y del texto deben detectarse (imagen invertida, orientación, códigos de barras, idioma de reconocimiento, margen de error de reconocimiento). -
Objeto SynthesisParamsForPage
Este objeto incluye parámetros responsables de restaurar el formato de una página durante la síntesis. -
Objeto SynthesisParamsForDocument
Este objeto permite personalizar la síntesis del documento: restaurar su estructura y formato. -
Objeto MultiProcessingParams - Solo para Linux y Windows
El procesamiento simultáneo puede resultar útil al procesar un gran número de imágenes. En este caso, la carga de procesamiento se distribuirá entre los núcleos del procesador durante la apertura y el preprocesamiento de imágenes, el análisis de diseño y el reconocimiento, lo que permite acelerar el procesamiento.
Los modos de procesamiento (simultáneo o consecutivo) se establecen mediante la propiedad MultiProcessingMode. La propiedad RecognitionProcessesCount controla el número de procesos que pueden iniciarse. -
Búsqueda de información importante
- Trabajar con Layout y Blocks
Información sobre el diseño de la página, los tipos de bloques y cómo trabajar con ellos. - Objeto Layout
Los parámetros de este objeto proporcionan acceso al diseño de la página y al texto reconocido tras el reconocimiento del documento. - Trabajar con texto
Trabajo con texto reconocido, párrafos, palabras y símbolos.
- Trabajar con Layout y Blocks
-
Nueva lectura del documento con parámetros especiales para el tipo de datos especificado
- Reconocimiento a nivel de campo
Descripción del escenario para reconocer segmentos cortos de texto.
- Reconocimiento a nivel de campo
-
Guardado de datos
- Para guardar los datos reconocidos, puede usar los métodos Export o ExportPages del objeto FRDocument asignando la constante FileExportFormatEnum como uno de los parámetros.
- Archivado de documentos
Descripción del escenario para guardar una copia electrónica del documento.
