Saltar al contenido principal
Este capítulo describe varias formas habituales de crear FlexiLayouts que busquen campos de datos en imágenes de baja calidad. Este tipo de imágenes es bastante común y suele presentar distintos defectos de escaneo causados, en su mayoría, por una configuración incorrecta. Por ejemplo, una imagen puede quedar demasiado clara o demasiado oscura si la configuración de brillo no es la adecuada. Como resultado, parte de la información de la imagen puede perderse o algunas zonas pueden contener ruido. No siempre es posible volver a escanear los documentos, y a menudo el usuario tiene que extraer datos de imágenes dañadas. Además, algunos documentos pueden tener notas escritas a mano sobre información útil, lo que suele provocar errores de reconocimiento. Todos los casos de deterioro del texto descritos afectan gravemente a la calidad del prerreconocimiento. La calidad del prerreconocimiento puede mejorarse cambiando el modo de reconocimiento a Accurate. Por desgracia, esto no siempre ayuda y aumenta considerablemente el tiempo de prerreconocimiento. Cuando se crea un FlexiLayout en FlexiLayout Studio, normalmente se utiliza el siguiente método. El usuario puede especificar en el FlexiLayout que los resultados del prerreconocimiento pueden ser inexactos, es decir, diferir del texto original. Esto se refleja en la configuración estándar de un elemento, por ejemplo, en el número máximo de errores de un elemento de tipo texto estático, o en el porcentaje de caracteres no alfabéticos de un elemento cadena de caracteres. En realidad, no se requiere una alta calidad de prerreconocimiento para buscar campos de datos. Sin embargo, sí es necesaria cuando los campos detectados se reconocen en FlexiCapture. Estos programas ofrecen tipos de datos especializados para cada campo, lo que mejora significativamente la calidad del reconocimiento. El prerreconocimiento en FlexiLayout Studio es un OCR de página completa, y la práctica ha demostrado que esto suele ser suficiente para detectar los campos de datos de un documento. En proyectos reales, por lo general basta con crear unos pocos elementos para obtener un FlexiLayout capaz de procesar correctamente imágenes de buena calidad. Cualquier usuario puede crear fácilmente un FlexiLayout que detecte los campos de datos necesarios en aproximadamente el 70 % de las imágenes. Ese FlexiLayout puede utilizarse en FlexiCapture. Un FlexiLayout puede actualizarse y “entrenarse” para extraer datos de imágenes de baja calidad. El alcance de esa modificación depende de la tarea en cuestión y del tiempo del que disponga el usuario. La modificación de un FlexiLayout incluye la detección de elementos que antes no se detectaban y el intento de encontrarlos con la ayuda de elementos adicionales (quizá de otro tipo) con restricciones de búsqueda menos estrictas. También hay otras situaciones que requieren modificar el FlexiLayout, incluida la creación de elementos adicionales. A menudo, el usuario tiene que procesar documentos similares recibidos de distintas fuentes, por ejemplo, documentos creados en distintas sucursales regionales de una institución gubernamental. Esos documentos, pese a su aparente similitud, pueden diferir en la disposición de los campos de datos. En esos casos, es aconsejable crear un único FlexiLayout en lugar de varias Definiciones de Document de FlexiCapture ligeramente distintas. Los documentos pueden diferir en los tipos de separadores utilizados o pueden estar cumplimentados no solo a mano, sino también con impresora. Para enseñar al programa a encontrar esos campos, utilice los métodos descritos en este capítulo. Puede encontrar un proyecto de FlexiLayout Studio que contiene imágenes de prueba y un FlexiLayout validado en %public%\ABBYY\FlexiCapture\12.0\Samples\FLS\Tips and Tricks. Detección de fechas en caso de prerreconocimiento de baja calidad Definición de varios valores de texto estático. Búsqueda de texto estático con valores similares Uso de Excluir para excluir elementos Uso de elementos de grupo para optimizar la estructura y la búsqueda de FlexiLayout Búsqueda de elementos de texto estático de una sola línea Restricción del área de búsqueda con RestrictSearchArea Búsqueda de campos de una sola línea con formato conocido o desconocido en documentos de distinta calidad Búsqueda de elementos con Nearest y FuzzyQuality Optimización de la búsqueda de elementos de grupo La propiedad “Optional” de un elemento de grupo Búsqueda de cadenas de dígitos Simplificación del FlexiLayout con un elemento auxiliar con una hipótesis nula Descripción de campos de texto que contienen letras enmarcadas