跳轉到主要內容
若要建立 OCR 技能,請依照下列步驟操作:
  1. 技能目錄 (Skill Catalog) 中,按一下工具列上的 Create 按鈕。
  2. 選擇 OCR Skill 技能類型。此時會開啟 Create OCR Skill 對話方塊。
  3. General 分頁上,輸入新技能的名稱與說明。
  4. Languages 分頁上:
    a. 在 Allowed Languages 區段中,選取一種或多種文件辨識語言。在處理期間,系統會自動從您在設定時指定的語言中選擇文件語言。請注意,選取語言的數量可能會影響辨識速度與品質。
    b. 如果文件包含手寫文字,請在 Text Appearance 區段啟用 Handwritten 選項。
  5. Image Enhancements 分頁上,Crop ImageCorrect Page Orientation 預設為啟用。若您的文件不需要這些功能,可以選擇將其關閉。
    Crop Image 會將影像裁切至原始文件的邊緣。Correct page orientation 會自動旋轉影像以還原其正確方向。
  6. Barcodes 分頁上,啟用可能出現在您文件上的條碼類型。選取的條碼類型數量可能會影響辨識速度。
    重要! 如果您在單一處理作業中使用 OCR 技能處理多個文件檔案,所有檔案都會合併為一個。因此,輸出檔案的數量將與您指定的匯出格式數量相同。
  7. Export 分頁上,選取一種或多種文件匯出格式。若需更多資訊,請參閱 Available Export Formats

可用的匯出格式

  • JSON(預設格式):
    • 僅文字(預設選項)。匯出的 JSON 檔案只會包含已辨識的文字,而不會保留文件的版面配置。如果選擇 僅文字,就無法匯出為 DOCX、XLSX 和 PPTX。
    • 保留文件結構。 匯出的 JSON 檔案將包含已辨識的文字,並同時保留文件的版面配置。
  • XML
    • 僅文字。匯出的 XML 檔案只會包含已辨識的文字,文件的版面配置將不會被保留。如果選擇 僅文字,就無法匯出為 DOCX、XLSX 和 PPTX。
    • 保留文件結構。匯出的 XML 檔案將包含已辨識的文字,並保留文件的版面配置。
  • ALTOXML
    • 僅文字。匯出的 ALTO XML 檔案只會包含已辨識的文字;文件的版面配置將不會被保留。如果選擇 僅文字,就無法匯出為 DOCX、XLSX 和 PPTX。
    • 保留文件結構。匯出的 ALTO XML 檔案將包含已辨識的文字,並保留文件的版面配置。
重要! JSON、XML 和 ALTOXML 的匯出選項(僅文字保留文件結構)必須相同。如果為其中一種格式指定了不同的匯出選項,該選項會同時套用到其他格式。
  • PDF
    • PDF/A-3a(預設 PDF 匯出格式)
    • PDF/A-3b
    • 僅影像。符合 PDF/A-3b 標準的不可編輯 PDF
提示: 對於每一種 PDF 匯出選項,可以在「較小檔案大小」(預設選項)和「最高品質」之間進行選擇。較小檔案大小是透過 Mixed Raster Content (MRC) 壓縮技術達成的,此技術會分別針對文字、圖片和背景決定最佳的壓縮率。
  • TXT
  • DOCX(Microsoft Word):
    • 可編輯。匯出的 DOCX 檔案會保留原始格式與文字流,同時便於編輯。輸出的文件可能與原始影像有所不同。
    • 精確。匯出的 DOCX 檔案會盡可能維持原始文件的格式。這可能會限制對輸出文件中文字與格式可進行變更的程度。
  • XLSX(Microsoft Excel)
  • TIFF
  • JPEG
    • 最高品質。匯出的檔案包含壓縮等級為 95% 的 JPEG。
    • 縮小檔案大小。匯出的檔案包含壓縮等級為 75% 的 JPEG。
  • PPTX(Microsoft PowerPoint)
  • HTML