Document Definition のプロパティ

Document Definition の基本プロパティ (名前、言語、記述スタイルなど) は、Document Definition Wizard を使用して設定します。その他のプロパティは既定で設定されます。 Document Definition のプロパティは、Document Definition エディターウィンドウで Document Definition → Document Definition Properties… メニュー項目を選択すると開くプロパティダイアログで確認および変更できます。このダイアログには、次のタブがあります。

General

このタブでは、Document Definition の名前を変更したり、説明を入力または編集したりできます。Enabled オプションでは、Document Definition を文書処理の対象に含めるか除外するかを指定します。

Recognition

プログラムでは、分類、FlexiLayout のマッチング、および画像上のテキストのハイライト表示に、全文認識と呼ばれる高速認識を使用します。このタブでは、全文認識の設定を指定します。field の認識設定は field プロパティで指定する点に注意してください。

Prefer settings from batch type**.** 全文認識設定を同期する場合は、このオプションを選択します。 Note: 同期を無効にすると、Document Definition のマッチングが遅くなることがあります。
Languages**.** 認識をエラーなく実行するには、正しい言語を設定する必要があります。このプロパティでは、言語そのものだけでなく、日付フォーマットや通貨などの設定も定義します。
リストから Recognition mode を選択します。
- Fast mode. カラー画像および中間調画像は、認識の前に二値化されます (つまり、白黒に変換されます) 。Fast recognition は処理時間が短く、ほとんどの場合で十分な結果が得られます。
- Balanced mode. このモードでは、プログラムは画像の色も考慮します。このモードでの認識は遅くなりますが、より高い品質が得られます。 Note: Balanced recognition mode を支えるアルゴリズムは、速度と品質の両面で可能な限り最良の結果に達しているため、今後これ以上の変更は予定されていません。
- Normal mode が既定です。また、Fast / Balanced mode での事前認識で複数のエラーが発生する場合にも推奨されます。
- Accurate mode は、かろうじて判読できるデジタル画像や低品質の文書からデータを抽出することを目的としています。 Note: Accurate mode は最も時間がかかるため、問題のある画像/文書にのみ使用することをお勧めします。
Advanced recognition settings…
- 必要に応じて、ページの向きが自動的に選択されたときにページを 180°、時計回りに 90°、または反時計回りに 90° 回転させるため、Correct page orientation のオプションを 1 つまたは複数選択できます。
- 必要に応じて、Text type セクションで Blank Form の印字方法 (Typographic、Matrix printer、Typewriter) を指定し、Use pattern オプションを選択して sample pattern を追加します。
- Barcodes**.** バーコード処理のパラメーター:
  - Disable barcode extraction. 画像上でバーコードを検出しない場合は、このオプションを選択します。これにより、文書認識が大幅に高速化されます。
  - Extract 2D barcodes: Data Matrix, Aztec, QR Code**.** 画像に指定された種類のバーコードが含まれている場合は、このオプションを選択します。オプションが選択されていない場合、Data Matrix、Aztec、QR Code のバーコードは画像上で検出されません。
Extract post barcodes. 画像に郵便バーコードが含まれている場合は、このオプションを選択します。このオプションが選択されていない場合、郵便バーコードは画像上で検出されません。 Important! バーコードを抽出すると認識速度は低下します。
CJK pre-recognition
- Separated furigana mode**.** 日本語のふりがなの認識精度を向上させるには、このオプションを選択します。
Named entity recognition: Extract named entities – NLP 手法を使用した情報抽出。 Note: NLP モジュールと特定のライセンス種別が必要です。
Vertical text extraction – 縦書きテキスト抽出のパラメーター:
- Extract for all languages – サポートされている任意の言語で書かれた縦書きテキストを検出します。
- Do not extract – 縦書きテキストを検出しません。
- Extract for CJK languages – 中国語、日本語、または韓国語で書かれた縦書きテキストを検出します。
Advanced… ボタンをクリックすると、画像の線形および非線形の歪み補正、スキャナーの自動フィーダーの方向などを設定できます。 Note: Correct linear distortion オプションを選択すると、高さ方向および幅方向の画像の伸張/圧縮パラメーターを指定できます。画像は、既存のアンカー (黒い四角、十字、または角) および水平・垂直の区切り線に基づいてスケーリングされます。
Amount of Money – 数値による金額と通貨コードまたは記号の組み合わせです。1、I、i や、s と $ のような見た目の似た文字による認識エラーを避けるために、特定の組み合わせでのみ文字を許可する regular expression が使用されます。これは、数値の金額の前または直後に置かれる通貨コードを表します。主要な通貨コードは Currencies に一覧表示されています。

必要に応じて、使用可能な通貨コードと記号のリストを変更できます。たとえば、文書内に現れる可能性のある通貨コードや記号がわかっている場合は、リストから不要な通貨を削除することで認識品質を向上させることができます。カスタムの通貨コードや記号をリストに追加することもできます。リストを変更するには、右側の […] ボタンをクリックします。Currency Symbols ダイアログでは、通貨コードまたは記号を追加または削除できます。または、field プロパティダイアログを開いて Data タブをクリックし、必要な変更を行います。詳細については、Data types of the text entry field を参照してください。 Note: Document Definition には、使用可能な通貨コードと記号のリストを 1 つだけ設定できます。このリストは、すべての Amount of Money field に適用されます。

Assembly

このタブは、複数ページ文書のアセンブリルールを設定するためのものです。必要に応じて、使用可能な通貨コードと記号の一覧を変更できます。たとえば、文書内で使用される可能性のある通貨コードや記号がわかっている場合は、一覧から不要な通貨を削除することで、Recognition の品質を向上させることができます。一覧には、カスタムの通貨コードや記号を追加することもできます。一覧を変更するには、右側の […] ボタンをクリックします。[通貨記号] ダイアログでは、通貨コードまたは記号を追加または削除できます。または、field properties ダイアログを開き、[Data] タブをクリックして必要な変更を行います。詳細については、テキスト入力フィールドのデータ型を参照してください。注: 1 つの Document Definition で設定できる、使用可能な通貨コードと記号の一覧は 1 つだけです。この一覧は、すべての Amount of Money field に適用されます。

アセンブリ

このタブでは、複数ページ文書のアセンブリルールを設定します。最も単純なケースでは、Document Definition は 1 回だけ現れる 1 つのセクションで構成されます。Document Definition が複数のセクションで構成されている場合、このタブにはそれらの名前の一覧が表示されます。各セクションの出現回数は、[Min number] 列と [Max number] 列の数値を変更して指定できます。

主要項目の一致によるアセンブリルールを使用 - 主要項目に基づいて document アセンブリを確認する場合は、このオプションを有効にします。次に、[Key Field] 列で各セクションの主要項目を選択します。文書を入力すると、各セクションの主要項目の値が一致する文書だけが、正しく組み立てられていると見なされます。値が一致しない場合は、アセンブリエラーメッセージが表示されます。
標準のアセンブリルールを使用 - 次の標準ルールを使用して document アセンブリを確認する場合は、このオプションを有効にします。
- セクション順序の確認を無効にする - 文書内のセクション順序の確認を無効にする場合 (たとえば、セクションの順序が document アセンブリに影響しない場合) は、このオプションを有効にします。プログラムは引き続き、文書内にすべてのセクションが存在するかどうかを確認しますが、順序は無視されます。
- 別紙ページを有効にする - 別紙付きの文書を処理する場合は、このオプションを有効にします。別紙付き文書の処理を有効にすると、Detect annexes using preset document structure, without analyzing (fast) オプションも選択でき、現在の document structure に基づいて別紙をより高速に検出できます。

注: Detect annexes using preset document structure, without analyzing (fast) オプションが有効なのは、インポート段階で分離して作成された文書、または API で特別なフラグを適用して作成された文書に対してのみです。これらの文書はアセンブリの対象外となります。

カスタムのアセンブリルールを使用 - document アセンブリ script を使用して document アセンブリを確認する場合は、このオプションを有効にします。カスタムのアセンブリスクリプトは、単独でも、標準の assembling ルールと組み合わせても実行できます。スクリプトの編集を開始するには、[Edit Assembly Script…] ボタンをクリックします。スクリプトエディター window が開きます。

詳細については、複数ページ文書の Document Definitions の作成、ページを文書に組み立てる、および別紙付き文書の Document Definitions の作成を参照してください。

ルール

このタブでは、Document Definition ルールに対する操作を行います。ルールの削除、編集、新規作成ができます。詳細については、ルールの検証を参照してください。

エクスポート先

このタブには、指定した Document Definition の現在の export settings が表示されます。export settings を変更するには、[Edit…] ボタンをクリックします

データフォーム

このタブでは、認識されたデータの表示に使用するフォントの輪郭とサイズを変更できます。

Data Text Settings グループには、認識された値を表示するためのフォント設定が含まれています。
Label Text Settings グループには、説明テキスト (フィールド名) を表示するための設定が含まれています。

詳細については、Document window でのデータ表示の設定を参照してください。

データセット

このタブでは、カスタムデータセットを作成および編集できます。詳細については、仕入先およびビジネスユニットデータベースの使用を参照してください。

イベントハンドラー

このタブでは、現在の型の文書に対する event handler を指定できます。詳細については、Event Handlersを参照してください。

.NET References

このタブでは、スクリプトおよびグローバルモジュールで使用する external assemblies を追加できます。標準 assemblies と、ユーザーがコンパイルした assemblies の両方を使用できます。アセンブリを追加するには、[Add…] をクリックします。開いたダイアログで、[Standard アセンブリ name] または [Attached file] の種類を選択します。選択した種類に応じて、標準アセンブリ名を入力するか、アセンブリファイルを参照します。詳細については、External assembliesを参照してください。