Saltar al contenido principal
Para crear una nueva Definición de Document o un conjunto de documentos a partir de Definiciones de Document ya habilitadas, seleccione Project Definiciones de Document… en el menú principal y, a continuación, haga clic en New… Después, seleccione qué tipo de documentos necesita procesar. Formularios Los formularios son documentos con un diseño fijo; es decir, los campos están ubicados en la misma posición en todas las copias, y cada una es una réplica exacta del formulario maestro creado por un diseñador.
  1. Seleccione una imagen que se utilizará como copia de referencia.
Una Definición de Document para formularios se crea a partir de una imagen obtenida al escanear un formulario en blanco. En el caso de los formularios, debe obtener una imagen de un formulario en blanco, ya que en esa imagen indicará la posición de cada campo.
La imagen debe ser de alta calidad y no presentar distorsiones como inclinación, desplazamiento, etc. En el caso de formularios en color, no aplique ningún filtro de color al escanear un formulario en blanco, porque necesita mantener intacto el fondo para poder crear una Definición de Document. Los filtros de eliminación de fondo deben aplicarse más adelante, al escanear formularios rellenados.
Si su documento contiene varias páginas, cargue la primera página y siga las recomendaciones proporcionadas en la sección Creación de Definiciones de Document para documentos de varias páginas para agregar las páginas restantes.Haga clic en Next para continuar con el siguiente paso.
  1. Especifique las propiedades principales de la Definición de Document, incluidos su nombre, su descripción y el idioma de sus documentos.
De forma predeterminada, en la lista desplegable de idiomas solo se muestran los idiomas para los que se proporcionan diccionarios. Para ver todos los idiomas disponibles, seleccione la opción Show all languages. Asegúrese de especificar el idioma correcto. Si especifica un idioma incorrecto, se producirán errores de reconocimiento. Los idiomas que tienen la abreviatura “ICR” junto a ellos pueden utilizarse para reconocer texto manuscrito, en letra de molde y texto impreso por máquina. Si no conoce de antemano el idioma de sus documentos, puede especificar varios idiomas candidatos, entre los que el programa seleccionará después el idioma adecuado.
Especificar demasiados idiomas puede ralentizar el procesamiento de documentos y provocar errores de reconocimiento.
El tipo de texto especificado en este paso se utilizará de forma predeterminada, pero siempre podrá cambiarlo más adelante para cualquier campo (esto puede ser necesario si distintos campos contienen texto en distintos idiomas).Seleccione la opción Use recognition settings from batch type si desea utilizar la configuración de reconocimiento especificada para el tipo de lote.
Deshabilitar la sincronización puede ralentizar el emparejamiento de la Definición de Document.
Haga clic en Next para continuar con el siguiente paso.
  1. Especifique los tipos de campos que desea que se detecten automáticamente. El programa no tendrá ningún problema para encontrar campos de entrada de texto especialmente marcados o marcas de verificación dentro de casillas. Sin embargo, si los campos de entrada de texto de su formulario no tienen ninguna marca especial o no hay casillas especiales para marcas de verificación junto al texto explicativo, quizá le convenga indicar manualmente sus posibles posiciones.
El programa siempre intentará detectar anclajes en los formularios.
Haga clic en Finish. Se abrirá el Editor de Definición de Document, donde deberá marcar los campos y los elementos estáticos en la imagen de la página y definir sus propiedades.
Documentos semiestructurados o no estructurados En el caso de los documentos semiestructurados y no estructurados, la disposición de los campos puede variar de un documento a otro. Para extraer campos de este tipo de documentos, se utilizará un FlexiLayout. Además, pueden utilizarse tecnologías de procesamiento del lenguaje natural (NLP) para extraer campos de documentos no estructurados.
  1. Seleccione una imagen que se utilizará como copia de referencia (opcional si está creando un FlexiLayout).
Si desea usar un FlexiLayout creado en ABBYY FlexiLayout Studio, seleccione la opción Load FlexiLayout y especifique la ruta del archivo que contiene el FlexiLayout. Para obtener más información, consulte la sección Creación de una Definición de Document basada en una descripción flexible.Un FlexiLayout puede crearse automáticamente si está seleccionada la opción Allow field location training.Haga clic en Next para pasar al siguiente paso.
  1. Especifique las propiedades principales de la Definición de Document, incluidos su nombre, su descripción y el idioma de sus documentos.
De manera predeterminada, en la lista desplegable de idiomas solo se muestran los idiomas para los que se proporcionan diccionarios. Para ver todos los idiomas disponibles, seleccione la opción Show all languages. Asegúrese de especificar el idioma correcto. Si especifica un idioma incorrecto, se producirán errores de reconocimiento. Los idiomas que tienen la abreviatura “ICR” junto a ellos pueden usarse para reconocer texto manuscrito, en letra de molde y texto impreso. Si no conoce de antemano el idioma de sus documentos, puede especificar varios idiomas posibles, entre los que el programa seleccionará después el adecuado.
Especificar demasiados idiomas puede ralentizar el procesamiento de documentos y provocar errores de reconocimiento.
El tipo de texto especificado en este paso se usará de manera predeterminada, pero siempre puede cambiar el tipo de texto de cualquier campo más adelante (esto puede ser necesario si distintos campos contienen texto en distintos idiomas).Seleccione la opción Use recognition settings from batch type si desea usar la configuración de reconocimiento especificada para el tipo de lote.
Deshabilitar la sincronización puede ralentizar el emparejamiento de la Definición de Document.
Haga clic en Finish. Se abrirá el Editor de Definición de Document.
Documentos que no requieren extracción automática de datos Se trata de documentos que no requieren detección automática de campos. Puede emplearse la tecnología OCR para habilitar las búsquedas de texto completo, o bien los documentos pueden dejarse sin reconocer. El objetivo de procesar estos documentos es digitalizarlos y permitir que los usuarios realicen búsquedas en ellos basadas en el valor de los campos clave. Para obtener más información, consulte la sección Definiciones de Document sin extracción de campos.
  1. Seleccione el origen de la imagen utilizada para la muestra del documento (opcional).
Haga clic en Next para pasar al siguiente paso.
  1. Especifique las propiedades principales de la Definición de Document, incluidos su nombre, su descripción y el idioma de sus documentos.
De manera predeterminada, en la lista desplegable de idiomas solo se muestran los idiomas para los que se proporcionan diccionarios. Para ver todos los idiomas disponibles, seleccione la opción Show all languages. Asegúrese de especificar el idioma correcto. Si especifica un idioma incorrecto, se producirán errores de reconocimiento. Los idiomas que tienen la abreviatura “ICR” junto a ellos pueden usarse para reconocer texto manuscrito, en letra de molde y texto impreso. Si no conoce de antemano el idioma de sus documentos, puede especificar varios idiomas posibles, entre los que el programa seleccionará después el adecuado.
Especificar demasiados idiomas puede ralentizar el procesamiento de documentos y provocar errores de reconocimiento.
El tipo de texto especificado en este paso se usará de manera predeterminada, pero siempre puede cambiar el tipo de texto de cualquier campo más adelante (esto puede ser necesario si distintos campos contienen texto en distintos idiomas).Seleccione la opción Use recognition settings from batch type si desea usar la configuración de reconocimiento especificada para el tipo de lote.
Deshabilitar la sincronización puede ralentizar el emparejamiento de la Definición de Document.
Haga clic en Finish.
Conjunto de documentos Un conjunto de documentos es una colección de documentos relacionados lógicamente. Para un conjunto de documentos, se crea una Definición de Document que incluye otras Definiciones de Document y, opcionalmente, una sección de resumen con información recopilada de los documentos del conjunto. Para obtener más información, consulte la sección Creación y configuración de conjuntos de documentos.
  1. En la lista de todos los documentos disponibles en el proyecto, seleccione los documentos que pertenecen al conjunto de documentos. Si es necesario, agregue una sección de resumen para agrupar los campos principales del conjunto en una sola sección, de modo que todos puedan verificarse en el mismo formulario de datos.
Haga clic en Siguiente para continuar con el siguiente paso.
  1. Especifique las propiedades principales de la Definición de Document, incluidos su nombre, su descripción y el idioma de sus documentos.
De forma predeterminada, en la lista desplegable de idiomas solo se muestran los idiomas para los que se proporcionan diccionarios. Para ver todos los idiomas disponibles, seleccione la opción Mostrar todos los idiomas. Asegúrese de especificar el idioma correcto. Especificar un idioma incorrecto provocará errores de reconocimiento. Los idiomas que tienen la abreviatura “ICR” a su lado pueden utilizarse para reconocer texto manuscrito, en letra de molde y texto impreso. Si no conoce de antemano el idioma de sus documentos, puede especificar varios idiomas posibles entre los que el programa seleccionará después el idioma adecuado.
Especificar demasiados idiomas puede ralentizar el procesamiento de documentos y provocar errores de reconocimiento.
El tipo de texto especificado en este paso se usará de forma predeterminada, pero siempre puede cambiar más adelante el tipo de texto de cualquier campo (esto puede ser necesario si distintos campos contienen texto en diferentes idiomas).Seleccione la opción Use recognition settings from batch type si desea utilizar la configuración de reconocimiento especificada para el tipo de lote.
Deshabilitar la sincronización puede ralentizar el emparejamiento de la Definición de Document.
Haga clic en Finalizar.