メインコンテンツへスキップ
ABBYY Vantage で PDF ドキュメントを処理する際は、どの方法でテキストを抽出するかを決定する必要があります。PDF には埋め込みテキストレイヤー (ファイル内に直接書き込まれた検索可能なテキスト) が含まれている場合もあれば、テキスト抽出のために Optical Character Recognition (OCR) が必要な画像のみのファイルである場合もあります。 PDF処理モード 設定では、Vantage がどの方法を使用するかを明示的に指定できます。これは特に次のような場合に役立ちます。
  • 抽出結果の再現性と監査性が求められる規制業界で作業している場合。
  • ドキュメントセットに、品質が低い、または信頼性に欠ける埋め込みテキストレイヤーを含む PDF があり、OCR を使用したほうがより良い結果が得られる場合。
  • ABBYY FlexiCapture から移行しており、既存のワークフローの処理動作を再現する必要がある場合。
  • 内容にかかわらず、すべてのドキュメントで一貫した予測可能な処理動作が必要な場合。

利用可能なモード

モード説明使用する場合
Default (推奨)利用可能な場合は埋め込みPDFのテキストレイヤーを使用し、必要に応じてOCRで補完します。これはVantageの標準的な処理方法です。一般的な用途向けです。テキストレイヤー付きPDFと画像のみのPDFが混在するほとんどのドキュメントセットに推奨されます。
テキストレイヤーのみを使用埋め込みPDFのテキストレイヤーからのみテキストを抽出します。テキストレイヤーが存在しない場合、Vantageは自動的にOCRに切り替えます。高品質で信頼できるテキストレイヤーがあり、完全なOCRを行わずにより高速に抽出したい場合に使用します。既存のテキストレイヤーを信頼できるソースとする規制環境でも有効です。
OCRのみを使用埋め込みPDFのテキストレイヤーを無視し、文書のすべてのページに対して完全なOCRを実行します。PDFのテキストレイヤーの信頼性が低い、または破損していることがわかっている場合や、構造に関係なくすべての文書で一貫してOCRベースの抽出を行いたい場合に使用します。

例となるシナリオ

以下の例は、各モードが最適な選択となる代表的なケースを示しています。
組織で、ベンダーのERPシステムから出力されたデジタル生成のPDF請求書を処理しているとします。埋め込まれたテキストレイヤーは正確で、機械的に生成されたものです。テキストレイヤーのみを使用を選ぶと、不要なOCRを実行せずに、高速で信頼性の高い抽出を行えます。
同じワークフローで、スキャンした紙の文書とデジタル生成のPDFが大量に混在している場合を考えます。きれいなテキストレイヤーを持つファイルもあれば、そうでないものもあります。**デフォルト (推奨) **なら、文書ごとに設定しなくても、その両方を自動的に処理できます。
文書セットが、スキャン時に低品質なテキストレイヤーを埋め込む旧式のスキャンシステムで生成されたPDFで構成されているとします。その埋め込みレイヤーには認識誤りが含まれており、フィールド抽出の品質を低下させます。OCRのみを使用ではこのレイヤーを完全に無視し、ページ画像から直接きれいなテキストを抽出します。
抽出結果に完全な再現性と監査可能性が求められる、規制の厳しい業界 (金融サービスや医療など) で運用している場合を考えます。モードをテキストレイヤーのみを使用またはOCRのみを使用のいずれかに固定すると、文書がどのように取り込まれても、常に同じ処理経路が使われるようにできます。

設定箇所

PDF処理モード は、次の場所で設定できます。
  • OCR Skill の設定 — General タブの Image Processing セクション
  • Process skill 内の OCR Activity の設定 — General タブの Image Processing セクション

サポートされる Technology Core のバージョン

PDF処理モード は、Technology Core 3 を使用する Skill でサポートされています。以前の Technology Core バージョンでは利用できません。