ABBYY FineReader Engine では、Engine を細かく調整するための多数のパラメーターがサポートされています。ほとんどの場合、すべての値を自分で設定する必要はありません。新しく作成されるオブジェクトのプロパティには、作成時に適切な既定値が設定されます。また、主な利用シナリオ向けに、十分にテストされた定義済みプロファイルも用意されています。
より特殊なシナリオで、最適な処理速度と品質を得るための設定がわかっている場合は、独自のプロファイルを作成してください。画像の前処理、解析、認識、合成、エクスポートに関するすべてのパラメーターは、プロファイルを通じて変更できます。たとえば、アプリケーションで認識結果を TXT (書式なしのプレーンテキスト) にエクスポートする場合、レイアウト関連の多くのプロパティは不要なため、無効にできます。
Engine オブジェクトの LoadPredefinedProfile/LoadProfile メソッドを使用してプロファイルを読み込むと、新しく作成されるオブジェクトのプロパティは、そのプロファイルで指定された既定値に設定されます。
ABBYY FineReader Engine には、主な使用シナリオ向けに設計された一連の定義済みプロファイルが用意されています。ほとんどのプロファイルには 2 つのバージョンがあり、1 つは生成される文書の品質を最優先に最適化されたもの、もう 1 つは処理速度を最優先に最適化されたものです。すべての定義済みプロファイルの詳細な仕様については、定義済みプロファイル仕様を参照してください。
| |
|---|
| ドキュメントからデータを抽出し、構造化された形式で出力するのに適しています。テーブル、画像、チェックマーク、手書き文字を含むすべてのオブジェクトが、位置情報および属性とともに保存されます。このプロファイルは、抽出したデータをさらに処理したり、他のアプリケーションと連携したりする場合に最適です。 |
| ドキュメントを編集可能な形式 (RTF、DOCXなど) に変換するのに適しています。設定は精度を優先して最適化されています。 - 最高品質。フォントスタイルの検出とドキュメントの論理構造の完全な合成が有効になります。
|
| ドキュメントを編集可能な形式 (RTF、DOCXなど) に変換するのに適しています。設定は処理速度を優先して最適化されています。 - 最高品質。フォントスタイルの検出とドキュメントの論理構造の完全な合成が有効になります。
- 画像の向きは補正されません。
- ドキュメント解析処理が高速化されます。
|
| 電子アーカイブの作成 (PDF、PDF/A、MRC付きPDF/Aへの変換) に適しています。設定は精度を優先して最適化されています。 - 画像に埋め込まれたテキストを含め、画像上のテキストを最大限に検出できます。
- ドキュメントの論理構造の完全な合成は実行されません。
このプロファイルは、ドキュメントをRTF、DOCX、またはテキストのみのPDFに変換することを目的としていません。そのような用途にはドキュメント変換プロファイルを使用してください。 |
| 電子アーカイブの作成 (PDF、PDF/A、MRC付きPDF/Aへの変換) に適しています。設定は処理速度を優先して最適化されています。 - 画像に埋め込まれたテキストを含め、画像上のテキストを最大限に検出できます。
- 傾き補正は実行されません。
- ドキュメントの論理構造の完全な合成は実行されません。
- ドキュメントの解析および認識処理が高速化されます。
このプロファイルは、ドキュメントをRTF、DOCX、またはテキストのみのPDFに変換することを目的としていません。そのような用途にはドキュメント変換プロファイルを使用してください。 |
| ドキュメントからテキストを抽出するのに適しています。設定は精度を優先して最適化されています。 - 低品質の小さなテキスト領域を含め、画像上のすべてのテキストを検出できます (画像とテーブルは検出されません) 。
- ドキュメントの論理構造の完全な合成は実行されません。
テキストは人間が読む順序で抽出されるため、自然言語処理 (NLP) エンジンによるトレーニングおよび処理に使用する際のデータの一貫性が確保されます。 このプロファイルは、ドキュメントをRTF、DOCX、またはテキストのみのPDFに変換することを目的としていません。そのような用途にはドキュメント変換プロファイルを使用してください。 |
| ドキュメントからテキストを抽出するのに適しています。設定は処理速度を優先して最適化されています。 - 低品質の小さなテキスト領域を含め、画像上のすべてのテキストを検出できます (画像とテーブルは検出されません) 。
- ドキュメントの論理構造の完全な合成は実行されません。
- ドキュメントの解析および認識処理が高速化されます。
テキストは人間が読む順序で抽出されるため、自然言語処理 (NLP) エンジンによるトレーニングおよび処理に使用する際のデータの一貫性が確保されます。 このプロファイルは、ドキュメントをRTF、DOCX、またはテキストのみのPDFに変換する用途には対応していません。そのような用途にはドキュメント変換プロファイルを使用してください。 |
| 短いテキストフラグメントの認識に適しています。現在、このプロファイルはデフォルト設定を使用しています。 |
| バーコードの抽出に適しています。バーコードのみを抽出します (テキスト、画像、表は検出されません) 。設定は精度を優先して最適化されています。 互換性のため、このプロファイルには
BarcodeRecognition という名前でもアクセスできます。 |
| バーコードの抽出に適しています。バーコードのみを抽出します (テキスト、画像、表は検出されません) 。設定は処理速度を優先して最適化されています。 |
| ドキュメント全体を画像として保存した高圧縮PDFファイルの作成に適しています。以下の設定が適用されます: - ドキュメントの認識およびドキュメントの論理構造の合成は行われません。
- スキュー補正は行われません。
- PDFエクスポートは出力ファイルのサイズが最小になるよう最適化されています。
- ドキュメント全体が画像として保存されます (PEM_ImageOnlyモード) 。
|
| 名刺の認識に適しています。以下の設定が適用されます: - 名刺のみを検出します。
- 画像上のすべてのテキストを検出します (低品質の小さなテキスト領域を含む) (画像と表は検出されません) 。
- 解像度補正が行われます。
- ドキュメントの論理構造の完全な合成は行われません。
|
| 機械可読ゾーン (MRZ) からのデータ抽出に適しています。以下の設定が適用されます: - 画像上のすべてのテキストを検出・抽出します (画像、ベクターグラフィックス、表は検出されません) 。
- 解像度と形状の補正が自動的に行われます。
|
| 技術図面の認識に適しています。エンジニアリング図面の大きなサイズと複雑さ、および画像内のさまざまなテキスト方向に対応しています。このプロファイルは、そのような画像を検索可能なPDF形式に変換することを目的としています。以下の設定が適用されます: - 縦方向のテキストブロックを含む、画像上のすべてのテキストを検出します。
- ドキュメントの論理構造の完全な合成は行われません。
このプロファイルは、ドキュメントをRTF、DOCX、またはテキストのみのPDFに変換する用途には対応していません。そのような用途にはドキュメント変換プロファイルを使用してください。 |
| すべての処理パラメーターをデフォルト値に設定します。 |
これらのプロファイルに用意されている設定は、EngineオブジェクトのLoadPredefinedProfileメソッドを使用して読み込めます。プロファイルを読み込むと、新たに作成されるオブジェクトには、プロファイルで指定された新しいデフォルト値が適用されます。
- Linux版FREのユーザーは、配布パッケージのBin Librariesフォルダー内にある定義済みプロファイルファイルを使用できます。
- macOS版FREのユーザーは、配布パッケージの/PredefinedProfilesフォルダー内にある定義済みプロファイルファイルを使用できます。
- FREngineDistribution.csvファイルを使用して、アプリケーションの動作に必要なリソースファイル一式を特定するには、選択したシナリオに対応するページを参照してください。
カスタムのユーザープロファイルを作成することもできます。プロファイルファイルの構文は、*.ini ファイルの構文に似ています。コメントを追加するには、行頭にセミコロンを付けます。
各セクションには角かっこで囲んだオブジェクト名を記述し、各キーにはプロパティとその新しい値を指定します。UserData という特別なセクションには、ユーザー定義の任意のキーを含めることができます。型ごとのプロパティは、次の形式で記述できます。
- Boolean 型のプロパティ値は、文字列
true または false で表します。
- 列挙型のプロパティ値は、定数名で表します。
- string 型のプロパティ値は、引用符を付けずに記述します。
例:
[PrepareImageMode]
RasterizeFreeText = false
[PDFExportParams]
TextExportMode = PEM_ImageOnText
; これはコメントです
[RecognizerParams]
TextLanguage = English,Russian
[TextExportParams]
TabSeparator = \t
Engine オブジェクトの LoadProfile メソッドを使用すると、ユーザープロファイル ファイルを読み込めます。ユーザープロファイルが読み込まれると、新しく作成されるオブジェクトのプロパティには、プロファイルで指定された値が設定されます。プロファイルからパラメーターを読み込むことは、プログラム コード内で対応するプロパティを設定するのと同様ですが、アプリケーション ロジックを簡素化できます。入力として空の string を指定して LoadProfile を呼び出すと、標準の既定値が使用されます。
プロパティの新しい値が正しいこと、およびそれらがライセンスに適合していることは、対応するオブジェクトの作成時にチェックされます。
プロファイル ファイルを使用すると、次のオブジェクトのすべてのプロパティをあらためて指定できます。
1 RecognizerParams オブジェクトの UserPatternsFile プロパティには、区切り文字に適切なスラッシュ記号を使用した、パターンファイルへの完全パスのみを指定できます。パスの値は引用符で囲まないでください。たとえば、Windows では次のとおりです。
[RecognizerParams]
UserPatternsFile = C:\folder\file.ptn
Linux の場合: /home/user/Documents/Patterns/、macOS の場合: /Users/user/Documents/
2 PictureExportParams オブジェクトまたは PaperSizeParams オブジェクトのプロパティを設定するには、パラメーターをエクスポート パラメーター オブジェクトのセクション内で直接指定します (PictureExportParams または PaperSizeParams のセクション内ではありません) 。これにより、エクスポート形式ごとに異なる設定を使用できます。たとえば、RTF ファイルにグレースケール画像形式を指定するには、次のようにします。
[RTFExportParams]
GrayPictureFormats = GPF_Png
3 DocumentContentInfoWritingParams オブジェクトのプロパティを設定するには、その親オブジェクトのセクションでパラメーターを直接指定します。PDF 形式の場合は PDFExportFeatures オブジェクト、その他の形式の場合は対応するエクスポート パラメーター オブジェクトです。これにより、エクスポート形式ごとに異なるコンテンツ情報の設定を指定できます。たとえば、出力 PDF ファイルにドキュメント作成者を書き込みたくない場合は、次の行をプロファイルに挿入します。
[PDFExportFeatures]
WriteAuthor = false
4 PageMargins オブジェクトのプロパティを設定するには、親オブジェクトのセクション内でパラメーターを直接指定します。UseCustomPageMargins プロパティを TRUE に設定する指定は、ページ余白の値より前に記述する必要があることに注意してください:
[RTFExportParams]
UseCustomPageMargins = true
PageMargins.Left = 5000
PageMargins.Right = 5000
PageMargins.Top = 5000
PageMargins.Bottom = 5000
1 つの定義済みプロファイルと 1 つのユーザープロファイルを同時に読み込むことができます。ユーザープロファイルは定義済みプロファイルより優先されます。つまり、ユーザープロファイルで定義済みプロファイルと同じパラメーターが設定されている場合は、ユーザープロファイルの値が使用されます。
さらに別の定義済みプロファイルを読み込むと、新しいプロファイルで以前の定義済みプロファイルが置き換えられます。同様に、新しいユーザープロファイルを読み込むと、以前のユーザープロファイルが置き換えられます。なお、プロファイルを読み込むと現在の認識セッションはクリアされます (これは IEngine::CleanRecognizerSession メソッドを呼び出すのと同じです) 。
前処理、解析、認識、合成のパラメーター調整
エクスポートパラメーターの調整