跳轉到主要內容
當 ABBYY Vantage 處理 PDF 文件時,必須決定要如何擷取文字。PDF 可能包含內嵌文字層 (直接寫入檔案中的可搜尋文字) ,也可能是僅含影像、必須透過 OCR 擷取文字的檔案。 PDF 處理模式設定可讓您明確控制 Vantage 要使用的方法。這在下列情況下特別實用:
  • 您在受監管的產業中工作,而這些產業要求擷取結果具備可重現性與可稽核性。
  • 您的文件集包含內嵌文字層品質不佳或不可靠的 PDF,使用 OCR 反而能產生更好的結果。
  • 您正從 ABBYY FlexiCapture 遷移,並且需要重現現有工作流程的處理行為。
  • 您需要所有文件都能維持一致且可預測的處理行為,不受內容差異影響。

可用模式

模式說明何時使用
預設 (建議)可用時使用內嵌的 PDF 文字層,並在需要時輔以 OCR。這是 Vantage 的標準處理方式。一般用途。建議用於大多數同時包含文字層 PDF 與純影像 PDF 的文件集。
僅使用文字層僅從內嵌的 PDF 文字層擷取文字。若不存在文字層,Vantage 會自動改用 OCR。當您擁有高品質且可信賴的文字層,並希望在不執行完整 OCR 的情況下加快擷取速度時使用。適用於受監管的環境,在這類環境中,現有文字層是正式依據。
僅使用 OCR忽略任何內嵌的 PDF 文字層,並對文件的每一頁執行完整 OCR。當已知 PDF 文字層不可靠或已損毀,或當您需要不受文件結構影響,對所有文件一致採用以 OCR 為基礎的擷取方式時使用。

範例情境

以下範例說明在什麼典型情況下,各模式會是最佳選擇。
您的組織會處理由供應商 ERP 系統匯出的數位原生 PDF 發票。內嵌的文字層準確無誤,且為機器產生。使用 僅使用文字層 可在不執行不必要 OCR 的情況下,提供快速且可靠的擷取結果。
您在同一工作流程中處理大量混合的掃描紙本文件與數位原生 PDF。有些檔案具有清晰的文字層,有些則沒有。預設 (建議) 會自動處理這兩種情況,無需逐份文件個別設定。
您的文件集由舊式掃描系統產生的 PDF 組成,而該系統會在掃描時嵌入低品質的文字層。該內嵌層包含識別錯誤,進而影響欄位擷取品質。僅使用 OCR 會完全略過該層,直接從頁面影像擷取乾淨的文字。
您所處的產業受到嚴格監管 (例如金融服務或醫療保健) ,因此擷取結果必須完全可重現且可稽核。將模式鎖定為 僅使用文字層僅使用 OCR,可確保無論文件如何進入系統,始終使用相同的處理路徑。

設定位置

可在下列位置設定 PDF 處理模式:
  • OCR 技能設定一般頁籤 中的 影像處理 區段
  • 流程技能 內的 OCR 活動設定一般頁籤 中的 影像處理 區段

支援的 Technology Core 版本

PDF 處理模式支援使用 Technology Core 3 的技能。較早版本的 Technology Core 不支援此模式。