Saltar al contenido principal
El programa genera hipótesis de espacio en blanco creando histogramas de los objetos candidatos. De forma predeterminada, el programa busca un espacio en blanco entre objetos de tipo cualquier texto. Para buscar un espacio en blanco entre otros tipos de objetos (p. ej., entre separadores), debe escribir la restricción correspondiente en el cuadro de diálogo Propiedades del elemento espacio en blanco (pestaña Avanzado, campo de relaciones avanzadas de prebúsqueda). Por ejemplo, si necesita encontrar un espacio en blanco en un área donde pueden aparecer todos los tipos de objetos, debe escribir la siguiente expresión: Type: PictureObject + SeparatorObject+ AnyText + PunctuationMark + CheckMarkObject;.

Un histograma se crea de la siguiente manera:

El programa proyecta sobre el eje horizontal o vertical todos los objetos de un tipo determinado detectados en el área de búsqueda. La proyección es la suma de los anchos o las alturas de los objetos. Al buscar un espacio en blanco horizontal, el programa crea una proyección sobre el eje vertical. Al buscar un espacio en blanco vertical, el programa crea una proyección sobre el eje horizontal; al buscar un espacio en blanco horizontal, el programa crea una proyección sobre el eje vertical. El tamaño lineal de cada objeto del tipo indicado se añade a la proyección. Por ejemplo, para encontrar un espacio en blanco vertical entre los objetos de texto, el programa suma las alturas de todos los objetos de texto situados en el área de búsqueda por encima de un punto determinado del eje horizontal y que intersectan el área de búsqueda del elemento. A continuación, el programa busca regiones donde la altura del histograma sea inferior a un valor determinado. Estas regiones corresponderán a áreas en las que el número de objetos es relativamente pequeño y su proyección es inferior a un cierto valor predefinido. El programa debe permitir la presencia de un cierto número de objetos en el espacio en blanco, ya que las imágenes reales suelen contener motas y otro ruido introducido durante el escaneo, que debe ignorarse al buscar espacios entre columnas o párrafos. El ruido de fondo apenas afecta al perfil general. Supongamos que tenemos objetos de texto H1, H2,…, H9 en el área de búsqueda. En la figura siguiente, estos objetos están resaltados en negro. Supongamos que la búsqueda contiene otros tipos de objetos (resaltados en rojo). Para encontrar el espacio en blanco vertical, necesitamos calcular la suma de las proyecciones de los objetos de texto sobre el eje horizontal. El histograma resultante se muestra en la figura siguiente. Puede ver que los objetos que no son de texto se ignoran en el histograma. A continuación, hay que hallar el máximo del histograma (marcado como Max en la figura). El valor del nivel máximo se multiplica después por el valor establecido en Threshold coefficient (%) (K=0.2). El resultado es el nivel máximo permitido del espacio en blanco (marcado como White Gap threshold en la figura). Si el valor resultante de White Gap threshold es >0, puede haber otros objetos presentes en el área del espacio en blanco. Una vez calculado White Gap threshold, se compara con los valores establecidos en Lower threshold limit y Upper threshold limit. Si White Gap threshold < Lower threshold limit, a White Gap threshold se le asigna el valor de Lower threshold limit y ese valor se utilizará para buscar el espacio en blanco. Si White Gap threshold > Upper threshold limit, a White Gap threshold se le asigna el valor de Upper threshold limit. A continuación, las alturas del histograma se comparan con White Gap threshold para encontrar áreas donde el nivel del histograma sea inferior a White Gap threshold. La propiedad Min width**/height** establece el ancho absoluto mínimo del espacio en blanco. Si el valor es W2, se descartarán las otras dos hipótesis. Una hipótesis de espacio en blanco tiene las siguientes propiedades:
PropiedadDescripción
Element nameEl nombre completo del elemento.
PáginaEl número de la página en la que se detectó el elemento.
Surrounding rectLas coordenadas del rectángulo que rodea la región de la hipótesis.
WidthEl ancho de la región de la hipótesis.
HeightLa altura de la región de la hipótesis.
OrientationLa orientación del espacio en blanco detectado.
Histogram maximum in search areaEl valor máximo del histograma en el área de búsqueda.
White Gap thresholdEl punto del histograma por debajo del cual el programa comienza a formular hipótesis de espacio en blanco.
Histogram maximum within hypothesisEl valor máximo del histograma dentro de la hipótesis.
DetectedMuestra si se ha encontrado el objeto descrito por el elemento (true) o si se ha formulado una hipótesis nula (false).
From the best pathMuestra si la hipótesis encontrada pertenece a la mejor ruta del árbol de hipótesis (true) o no (false).
Pre-search qualityIndica hasta qué punto la hipótesis coincide con las propiedades del elemento especificadas en el cuadro de diálogo Propiedades y por el código de las relaciones avanzadas previas a la búsqueda.
Post-search qualityLa calidad de la hipótesis después de aplicar las condiciones del campo Advanced post-search relations.
Chain qualityLa calidad de la cadena de hipótesis, desde el primer subelemento del grupo hasta el subelemento actual. La calidad de la cadena se calcula multiplicando las calidades de todos los subelementos de la cadena y se utiliza para comparar cadenas rivales de hipótesis.

Más información:

Espacio en blanco Área de búsqueda Restricciones de búsqueda adicionales