跳轉到主要內容
Vantage 為文件欄位、文字與影像提供以下匯出選項。

匯出擷取欄位值的選項(Fields 索引標籤)

FormatExport OptionDescriptionFile Name
JSON每份文件的值、中繼資料和欄位結構完整的資料擷取結果。輸出檔案的結構在《Developer’s Guide》中有詳細描述。<Applied_skill_name>.json
JSON僅值欄位值與規則錯誤。輸出檔案的結構在《Developer’s Guide》中有詳細描述。<Applied_skill_name>_fields.json
CSV僅值欄位值。**注意:**匯出影像欄位時,其在 CSV 檔案中的欄位值會是空白。如果重複結構巢狀在群組內,其名稱會顯示為 “New Group/New Table”,但在子檔案名稱中,斜線會以底線取代(例如:New Group_New Table_055fe8c.csv<Applied_skill_name>.csv*
*如果文件包含重複物件(重複欄位、欄位的重複群組、表格),它們會匯出為個別的檔案。使用下列命名方式:
  • 父 CSV 檔案的名稱:<Applied_skill_name>.csv
  • 針對重複物件的子 CSV 檔案名稱:<Field_path>_<random 7-character identifier>.csv
  • 如果子 CSV 檔案名稱長度超過 250 個字元,會改用替代命名方式:<Field_ID>_<random 7-character identifier>.csv
匯出到共用資料夾時,父 CSV 檔案會儲存在處理作業資料夾中。如果在同一個處理作業中有多份相同類型的文件,且每份文件都會產生各自的 CSV 檔案,則會使用以下規則與命名方式:
  • 在 CSV 檔案名稱後加上從 2 開始的數字後綴。
  • 在處理作業資料夾中為子 CSV 檔案建立一個子資料夾。
  • 子資料夾名稱如下:<Applied_skill_name>_<N><Applied_skill_name>_fields_<N>(如果已啟用 JSON 匯出 - 僅值),其中 N 是文件在該處理作業中的序號(若處理作業中有多於一份文件,則從 2 開始)。
  • 對於重複物件,子 CSV 檔案的名稱會在父 CSV 檔案的欄位值中指定。
CSV 檔案的格式如下:
  • 欄位名稱會寫入 CSV 檔案的第一列。
  • 使用逗號分隔欄位。
  • 使用的編碼類型為 UTF-8(含 BOM)。
  • 空的重複欄位或重複群組實例,以及空白的表格列都不會匯出,也就是說,產生的 CSV 檔案中不會有任何空白列。

匯出文件文字的選項 (Text 標籤)

FormatExport OptionDescriptionFile Name
JSONText only僅包含已辨識文字的 JSON 檔案;不會保留文件版面配置。**注意:**選擇此選項後,將無法再匯出為 DOCX、XLSX 和 PPTX。<Applied_skill_name>_text.json
JSONPreserve document structure包含已辨識文字且保留文件版面配置的 JSON 檔案。<Applied_skill_name>_text.json
XMLText only僅包含已辨識文字的 XML 檔案;不會保留文件版面配置。**注意:**選擇此選項後,將無法再匯出為 DOCX、XLSX 和 PPTX。<Applied_skill_name>.xml
XMLPreserve document structure包含已辨識文字且保留文件版面配置的 XML 檔案。<Applied_skill_name>.xml
ALTOXMLText only僅包含已辨識文字的 ALTO XML 檔案;不會保留文件版面配置。該檔案符合 ALTO 標準,結構描述版本為 4.2。**注意:**選擇此選項後,將無法再匯出為 DOCX、XLSX 和 PPTX。<Applied_skill_name>.xml
ALTOXMLPreserve document structure包含已辨識文字且保留文件版面配置的 ALTO XML 檔案。該檔案符合 ALTO 標準,結構描述版本為 4.2。<Applied_skill_name>.xml
TXT純文字文件。使用空白字元來保留原始文件結構。<Applied_skill_name>.txt
DOCXEditable可編輯的 Word 文件,但外觀可能與原始文件不完全相同。<Applied_skill_name>.docx
DOCXExact不可編輯的 Word 文件。會完整保留原始文件結構。<Applied_skill_name>.docx
XLSX可編輯的 Excel 文件。會保留原始文件結構。<Applied_skill_name>.xlsx
PPTX可編輯的 PowerPoint 文件。會保留原始文件結構。<Applied_skill_name>.pptx
HTML保留原始文件結構的 HTML 文件。<Applied_skill_name>.html
匯出到共用資料夾時,所有檔案都會儲存在該處理作業的資料夾中。如果在同一個處理作業中存在多個相同類型的文件,則會在檔名後加上從 2 開始的數字後綴。 匯出的文字會反映 Manual Review Operator 在手動審核期間對欄位值所做的變更。
JSON、XML 和 ALTOXML 的匯出選項 (Text onlyPreserve document structure) 必須相同。如果您為其中一種格式指定了其他匯出選項,該選項也會套用到其他格式。

匯出文件影像的選項 (影像索引標籤)

FormatExport OptionDescriptionFile Name
PDFPDF/A-3a含有文字層且文字層位於文件影像之上的 PDF 檔案。文字層會反映手動審核過程中,由手動審核作業人員對欄位值所做的變更。<Applied_skill_name>.pdf
PDFPDF/A-3b含有文字層且文字層位於文件影像之上的 PDF 檔案。文字層會反映手動審核過程中,由手動審核作業人員對欄位值所做的變更。<Applied_skill_name>.pdf
PDFImage-only採用 PDF/A-3b 標準且不含文字層的不可編輯 PDF 檔案。<Applied_skill_name>.pdf
TIFF含有增強後影像的 TIFF 格式檔案。<Applied_skill_name>.tiff
JPEGMaximum quality含有增強後影像的 JPEG 格式檔案。如果選擇此壓縮選項,影像品質等級將設為 95%。pages/page_<N>.jpg
JPEGSmaller file size含有增強後影像的 JPEG 格式檔案。如果選擇此壓縮選項,影像品質等級將設為 75%。這可讓您在維持影像可讀性的同時,仍能減少檔案大小。pages/page_<N>.jpg
對於每一種 PDF 匯出選項,您可以在「較小檔案大小」 (預設選項) 與「最佳品質」之間進行選擇。較小檔案大小是透過使用 Mixed Raster Content (MRC) 壓縮達成,其會分別針對文字、圖片與背景決定最佳壓縮率。 當匯出至共用資料夾時,會為處理作業中的每一份文件建立一個子資料夾。將套用下列規則與命名方式:
  • 子資料夾的命名方式如下:<Applied_skill_name>_<N>,或 <Applied_skill_name>_fields_<N> (如果啟用了 JSON export - Values only) 。N 是該文件在處理作業中的序號 (若處理作業中有多於一份文件,則從 2 開始) 。
  • 在此子資料夾中,會建立一個 Pages 子資料夾以儲存 JPG 檔案。檔案名稱為 formatted as page_<N>.jpg,其中 N 為頁面的序號。
  • PDF 與 TIFF 檔案會儲存在處理作業資料夾中。
  • 若在處理作業中存在多份相同類型的文件,則會在檔案名稱後加上從 2 開始的數字尾碼。

一般命名規則

大多數匯出的檔案名稱會包含 <Applied_skill_name>,代表下列其中一項:
  • 套用至該文件的最後一個文件 Skill 的名稱。
  • 若未套用任何文件 Skill,則為套用至該文件的最後一個分類技能的名稱。
  • 若未套用任何文件或分類技能,但在流程技能的流程中至少存在其中一種技能,則為「Unknown」。
如果有多個輸出檔案且已設定匯出至共用資料夾,則會在檔案名稱後附加遞增的數字,以確保每個名稱唯一。

發生錯誤的處理作業

如果處理作業未成功完成,Vantage 會產生一個 Error.json 檔案,其中包含一個 JSON 字串,記錄該處理作業的下列資訊:
  • 處理作業識別碼
  • 處理作業狀態(Failed)
  • 錯誤訊息
  • 包含該處理作業中所有來源檔案識別碼與名稱的陣列
預設情況下,匯出的資料會依據保留原則儲存 2 週。