- 抽出結果の再現性と監査性が求められる規制業界で作業している場合。
- ドキュメントセットに、品質が低い、または信頼性に欠ける埋め込みテキストレイヤーを含む PDF があり、OCR を使用したほうがより良い結果が得られる場合。
- ABBYY FlexiCapture から移行しており、既存のワークフローの処理動作を再現する必要がある場合。
- 内容にかかわらず、すべてのドキュメントで一貫した予測可能な処理動作が必要な場合。
利用可能なモード
| モード | 説明 | 使用する場合 |
|---|---|---|
| Default (推奨) | 利用可能な場合は埋め込みPDFのテキストレイヤーを使用し、必要に応じてOCRで補完します。これはVantageの標準的な処理方法です。 | 一般的な用途向けです。テキストレイヤー付きPDFと画像のみのPDFが混在するほとんどのドキュメントセットに推奨されます。 |
| テキストレイヤーのみを使用 | 埋め込みPDFのテキストレイヤーからのみテキストを抽出します。テキストレイヤーが存在しない場合、Vantageは自動的にOCRに切り替えます。 | 高品質で信頼できるテキストレイヤーがあり、完全なOCRを行わずにより高速に抽出したい場合に使用します。既存のテキストレイヤーを信頼できるソースとする規制環境でも有効です。 |
| OCRのみを使用 | 埋め込みPDFのテキストレイヤーを無視し、文書のすべてのページに対して完全なOCRを実行します。 | PDFのテキストレイヤーの信頼性が低い、または破損していることがわかっている場合や、構造に関係なくすべての文書で一貫してOCRベースの抽出を行いたい場合に使用します。 |
例となるシナリオ
テキストレイヤーのみを使用
テキストレイヤーのみを使用
組織で、ベンダーのERPシステムから出力されたデジタル生成のPDF請求書を処理しているとします。埋め込まれたテキストレイヤーは正確で、機械的に生成されたものです。テキストレイヤーのみを使用を選ぶと、不要なOCRを実行せずに、高速で信頼性の高い抽出を行えます。
デフォルト(推奨)
デフォルト(推奨)
同じワークフローで、スキャンした紙の文書とデジタル生成のPDFが大量に混在している場合を考えます。きれいなテキストレイヤーを持つファイルもあれば、そうでないものもあります。**デフォルト (推奨) **なら、文書ごとに設定しなくても、その両方を自動的に処理できます。
OCRのみを使用
OCRのみを使用
文書セットが、スキャン時に低品質なテキストレイヤーを埋め込む旧式のスキャンシステムで生成されたPDFで構成されているとします。その埋め込みレイヤーには認識誤りが含まれており、フィールド抽出の品質を低下させます。OCRのみを使用ではこのレイヤーを完全に無視し、ページ画像から直接きれいなテキストを抽出します。
規制対象の環境
規制対象の環境
抽出結果に完全な再現性と監査可能性が求められる、規制の厳しい業界 (金融サービスや医療など) で運用している場合を考えます。モードをテキストレイヤーのみを使用またはOCRのみを使用のいずれかに固定すると、文書がどのように取り込まれても、常に同じ処理経路が使われるようにできます。
設定箇所
- OCR Skill の設定 — General タブの Image Processing セクション
- Process skill 内の OCR Activity の設定 — General タブの Image Processing セクション
