Saltar al contenido principal
Si se ha especificado una expresión regular en las propiedades de un elemento, el programa buscará cualquier cadena en el área de búsqueda que cumpla las condiciones de la expresión regular. Si no se ha especificado ninguna expresión regular, el programa utiliza los alfabetos definidos por el usuario. El programa considera todos los objetos de texto que se intersecan horizontalmente con el área de búsqueda (verticalmente, los objetos deben quedar completamente dentro del área de búsqueda). A continuación, los objetos de texto se agrupan en líneas. Las líneas se construyen de izquierda a derecha. El programa deja de construir una línea cuando se supera la longitud máxima del espacio (establecida en la propiedad Max space length). En las líneas resultantes, el programa identifica cadenas de caracteres, cada una de las cuales contiene caracteres de solo uno de los alfabetos definidos por el usuario. De forma similar, el programa divide las líneas en fragmentos. A continuación, el programa formula una hipótesis para cada uno de los fragmentos. Según esté o no seleccionada la opción Allow embedded hypotheses, las hipótesis se formulan siguiendo dos principios diferentes. Supongamos que el programa detectó tres fragmentos en una etapa anterior. Si la opción Allow embedded hypotheses está seleccionada, las hipótesis se formulan de la siguiente manera: hipótesis 1: fragmento 1 hipótesis 2: fragmento 1 + fragmento 2 hipótesis 3: fragmento 1 + fragmento 2 + fragmento 3 hipótesis 4: fragmento 2 hipótesis 5: fragmento 2 + fragmento 3 hipótesis 6: fragmento 3 Para cada hipótesis, el programa comprobará que la proporción de caracteres de cada alfabeto no supere el valor establecido en el campo Percentage of alphabet characters. Del mismo modo, el programa comprueba que el porcentaje de caracteres que no pertenecen a ningún alfabeto no supere el valor establecido en el campo Percentage of non-alphabet characters. Si falla al menos una de las comprobaciones, no se formula ninguna hipótesis. Si la opción Allow embedded hypotheses no está seleccionada, se descartarán las hipótesis incrustadas de la lista anterior. Las hipótesis incrustadas son aquellas que están contenidas dentro de otra hipótesis de la lista anterior. Si las comprobaciones se realizaron correctamente para todas las hipótesis, solo permanecerá la siguiente hipótesis: fragmento 1 + fragmento 2 + fragmento 3. Por lo tanto, si la opción Allow embedded hypotheses no está seleccionada, el programa formula hipótesis de longitud máxima que cumplen todas las condiciones. Aunque las hipótesis incrustadas se excluyen, las hipótesis pueden intersecarse. Puede tratarse de un carácter o una palabra independientes, o de una cadena de caracteres que forme parte de otras hipótesis, pero para la cual no se hayan formulado hipótesis independientes. Por ejemplo, el programa puede formular dos hipótesis (es decir, dos cadenas): una que termina en una determinada palabra o frase y otra que comienza con esa palabra o frase. P. ej. hipótesis 1: fragmento 1 + fragmento 2 hipótesis 2: fragmento 2 + fragmento 3 Una vez que se han generado todas las hipótesis posibles, el programa calcula la Pre-search quality de cada una (se trata de una estimación de hasta qué punto una hipótesis cumple las restricciones de búsqueda establecidas en el cuadro de diálogo Propiedades, en la pestaña cadena de caracteres y en la pestaña Advanced, en el campo Advanced pre-search relations). En esta etapa, la calidad se calcula en función de si la longitud de la hipótesis en caracteres se encuentra dentro del intervalo difuso especificado en la propiedad Character count, de si la longitud del espacio total de la línea se encuentra dentro del intervalo difuso especificado en TotalGapLength, y de si el número de palabras de la línea se encuentra dentro del intervalo difuso especificado en la propiedad Word count. La calidad global de una hipótesis se calcula multiplicando todas las calidades. Una hipótesis de cadena de caracteres tiene las siguientes propiedades:
PropertyDescription
Element nameEl nombre completo del elemento.
PageEl número de la página en la que se detectó el elemento.
Surrounding rectLas coordenadas del rectángulo que rodea la región de la hipótesis.
WidthEl ancho de la región de la hipótesis.
HeightLa altura de la región de la hipótesis.
TextLos caracteres de la hipótesis.
DetectedIndica si se ha encontrado el objeto descrito por el elemento (true) o si se ha formulado una hipótesis nula (false).
From the best pathIndica si la hipótesis encontrada pertenece a la mejor ruta del árbol de hipótesis (true) o no (false).
Pre-search qualityHasta qué punto la hipótesis coincide con las propiedades del elemento especificadas por la configuración del cuadro de diálogo Propiedades y por el código del campo Advanced pre-search relations.
Post-search qualityLa calidad de la hipótesis después de aplicar las condiciones del campo Advanced post-search relations.
Chain qualityLa calidad de la cadena de hipótesis, desde el primer subelemento del grupo hasta el subelemento actual. La calidad de la cadena se calcula multiplicando las calidades de todos los subelementos de la cadena y se utiliza para comparar cadenas rivales de hipótesis.

Más información:

Cadena de caracteres Área de búsqueda Restricciones de búsqueda adicionales