メインコンテンツへスキップ
プログラムは、候補オブジェクトのヒストグラムを作成することで、White Gap仮説を生成します。 既定では、プログラムは Any Text オブジェクト間の White Gap を探します。ほかの種類のオブジェクト間 (たとえば Separators 間) の White Gap を探すには、White Gap 要素の Properties ダイアログ (Advanced タブの Advanced pre-search relations field) で、対応する制約を記述する必要があります。たとえば、あらゆる種類のオブジェクトが現れる可能性のある領域で White Gap を見つける必要がある場合は、次の式を記述する必要があります: Type: PictureObject + SeparatorObject+ AnyText + PunctuationMark + CheckMarkObject;

ヒストグラムは次のように作成されます。

プログラムは、検索領域内で検出された特定の型のオブジェクトをすべて、水平軸または垂直軸に投影します。投影とは、各オブジェクトの幅または高さの総和です。水平ギャップを探す場合、プログラムは垂直軸上に投影を作成します。垂直ギャップを探す場合、プログラムは水平軸上に投影を作成します。水平ギャップを探す場合、プログラムは垂直軸上に投影を作成します。指定されたサイズの各オブジェクトの線方向の寸法が、この投影に加算されます。たとえば、テキストオブジェクトの中から垂直の White Gap を見つけるには、プログラムは、水平軸上の特定の点より上にあり、かつ要素の検索領域と交差している、検索領域内のすべてのテキストオブジェクトの高さを合計します。 次にプログラムは、ヒストグラムの高さが特定の値より小さい領域を探します。これらの領域は、オブジェクト数が比較的少なく、その投影があらかじめ定義された値未満である領域に対応します。実際の画像には、スキャン時に生じた斑点やその他のノイズが含まれることが多く、列や段落の間のギャップを探す際にはそれらを無視する必要があるため、プログラムは White Gap 内に一定数のオブジェクトが存在することを許容しなければなりません。背景ノイズは全体的なプロファイルに大きな影響を与えません。 検索領域にテキストオブジェクト H1, H2,…, H9 があるとします。下図では、これらのオブジェクトは黒で強調表示されています。検索領域には、ほかの型のオブジェクト (赤で強調表示) も含まれているとします。 垂直の White Gap を見つけるには、テキストオブジェクトの水平軸への投影の総和を求める必要があります。結果のヒストグラムを次の図に示します。ヒストグラムでは、テキスト以外のオブジェクトが無視されていることがわかります。 次に、ヒストグラムの最大値 (図では Max と表示) を求める必要があります。次に、この最大レベルの値に Threshold coefficient (%) (K=0.2) で設定された値を掛けます。その結果が、White Gap の最大許容レベル (図では White Gap threshold と表示) になります。結果として得られる White Gap threshold が 0 より大きい場合、White Gap の領域内にほかのオブジェクトが存在していてもかまいません。 White Gap threshold が計算されると、それは Lower threshold limit および Upper threshold limit で設定された値と比較されます。White Gap threshold < Lower threshold limit の場合、White Gap threshold には Lower threshold limit の値が設定され、この値が White Gap の検索に使用されます。White Gap threshold > Upper threshold limit の場合、White Gap threshold には Upper threshold limit の値が設定されます。 次に、ヒストグラムの高さを White Gap threshold と比較して、ヒストグラムのレベルが White Gap threshold より低い領域を探します。 Min width**/height** プロパティは、White Gap の絶対的な最小幅を設定します。値が W2 の場合、ほかの 2 つの仮説は Discard されます。 White Gap 仮説には、次のプロパティがあります。
PropertyDescription
Element name要素のフルネーム。
Page要素が検出されたページの番号。
Surrounding rect仮説の領域を囲む矩形の座標。
Width仮説の領域の幅。
Height仮説の領域の高さ。
Orientation検出された White Gap の向き。
Histogram maximum in search area検索領域内におけるヒストグラムのピーク値。
White Gap thresholdプログラムが White Gap 仮説の生成を開始するヒストグラム上のしきい値。
Histogram maximum within hypothesis仮説内におけるヒストグラム最大値のピーク。
Detected要素で記述されたオブジェクトが見つかったかどうか (true) 、またはヌル仮説が生成されたかどうか (false) を示します。
From the best path見つかった仮説が仮説ツリーの最適パスに属しているかどうか (true) 、または属していないかどうか (false) を示します。
Pre-search qualityProperties ダイアログの設定、および Advanced pre-search relations 内のコードで指定された要素のプロパティに、仮説がどの程度一致しているか。
Post-search qualityAdvanced post-search relations field の条件が適用された後の仮説の品質。
Chain qualityグループの最初の subelement から現在の subelement までの仮説チェーンの品質。チェーンの品質は、チェーン内のすべての subelements の品質を乗算して計算され、競合する仮説チェーンを比較するために使用されます。

詳細:

White Gap 検索領域 追加の検索条件