- 在 技能目錄 (Skill Catalog) 中,按一下工具列上的 Create 按鈕。
- 選擇 OCR Skill 技能類型。此時會開啟 Create OCR Skill 對話方塊。
- 在 General 分頁上,輸入新技能的名稱與說明。
- 在 Languages 分頁上:
a. 在 Allowed Languages 區段中,選取一種或多種文件辨識語言。在處理期間,系統會自動從您在設定時指定的語言中選擇文件語言。請注意,選取語言的數量可能會影響辨識速度與品質。
b. 如果文件包含手寫文字,請在 Text Appearance 區段啟用 Handwritten 選項。 - 在 Image Enhancements 分頁上,Crop Image 與 Correct Page Orientation 預設為啟用。若您的文件不需要這些功能,可以選擇將其關閉。
Crop Image 會將影像裁切至原始文件的邊緣。Correct page orientation 會自動旋轉影像以還原其正確方向。 - 在 Barcodes 分頁上,啟用可能出現在您文件上的條碼類型。選取的條碼類型數量可能會影響辨識速度。
重要! 如果您在單一處理作業中使用 OCR 技能處理多個文件檔案,所有檔案都會合併為一個。因此,輸出檔案的數量將與您指定的匯出格式數量相同。 - 在 Export 分頁上,選取一種或多種文件匯出格式。若需更多資訊,請參閱 Available Export Formats。
可用的匯出格式
- JSON(預設格式):
- 僅文字(預設選項)。匯出的 JSON 檔案只會包含已辨識的文字,而不會保留文件的版面配置。如果選擇 僅文字,就無法匯出為 DOCX、XLSX 和 PPTX。
- 保留文件結構。 匯出的 JSON 檔案將包含已辨識的文字,並同時保留文件的版面配置。
- XML:
- 僅文字。匯出的 XML 檔案只會包含已辨識的文字,文件的版面配置將不會被保留。如果選擇 僅文字,就無法匯出為 DOCX、XLSX 和 PPTX。
- 保留文件結構。匯出的 XML 檔案將包含已辨識的文字,並保留文件的版面配置。
- ALTOXML:
- 僅文字。匯出的 ALTO XML 檔案只會包含已辨識的文字;文件的版面配置將不會被保留。如果選擇 僅文字,就無法匯出為 DOCX、XLSX 和 PPTX。
- 保留文件結構。匯出的 ALTO XML 檔案將包含已辨識的文字,並保留文件的版面配置。
重要! JSON、XML 和 ALTOXML 的匯出選項(僅文字 和 保留文件結構)必須相同。如果為其中一種格式指定了不同的匯出選項,該選項會同時套用到其他格式。
- PDF:
- PDF/A-3a(預設 PDF 匯出格式)
- PDF/A-3b
- 僅影像。符合 PDF/A-3b 標準的不可編輯 PDF
提示: 對於每一種 PDF 匯出選項,可以在「較小檔案大小」(預設選項)和「最高品質」之間進行選擇。較小檔案大小是透過 Mixed Raster Content (MRC) 壓縮技術達成的,此技術會分別針對文字、圖片和背景決定最佳的壓縮率。
- TXT
- DOCX(Microsoft Word):
- 可編輯。匯出的 DOCX 檔案會保留原始格式與文字流,同時便於編輯。輸出的文件可能與原始影像有所不同。
- 精確。匯出的 DOCX 檔案會盡可能維持原始文件的格式。這可能會限制對輸出文件中文字與格式可進行變更的程度。
- XLSX(Microsoft Excel)
- TIFF
- JPEG:
- 最高品質。匯出的檔案包含壓縮等級為 95% 的 JPEG。
- 縮小檔案大小。匯出的檔案包含壓縮等級為 75% 的 JPEG。
- PPTX(Microsoft PowerPoint)
- HTML
