Vantage 為文件欄位、文字與影像提供以下匯出選項。
| Format | Export Option | Description | File Name |
|---|
| JSON | 每份文件的值、中繼資料和欄位結構 | 完整的資料擷取結果。輸出檔案的結構在《Developer’s Guide》中有詳細描述。 | <Applied_skill_name>.json |
| JSON | 僅值 | 欄位值與規則錯誤。輸出檔案的結構在《Developer’s Guide》中有詳細描述。 | <Applied_skill_name>_fields.json |
| CSV | 僅值 | 欄位值。**注意:**匯出影像欄位時,其在 CSV 檔案中的欄位值會是空白。如果重複結構巢狀在群組內,其名稱會顯示為 “New Group/New Table”,但在子檔案名稱中,斜線會以底線取代(例如:New Group_New Table_055fe8c.csv) | <Applied_skill_name>.csv* |
*如果文件包含重複物件(重複欄位、欄位的重複群組、表格),它們會匯出為個別的檔案。使用下列命名方式:
- 父 CSV 檔案的名稱:
<Applied_skill_name>.csv
- 針對重複物件的子 CSV 檔案名稱:
<Field_path>_<random 7-character identifier>.csv
- 如果子 CSV 檔案名稱長度超過 250 個字元,會改用替代命名方式:
<Field_ID>_<random 7-character identifier>.csv
匯出到共用資料夾時,父 CSV 檔案會儲存在處理作業資料夾中。如果在同一個處理作業中有多份相同類型的文件,且每份文件都會產生各自的 CSV 檔案,則會使用以下規則與命名方式:
- 在 CSV 檔案名稱後加上從 2 開始的數字後綴。
- 在處理作業資料夾中為子 CSV 檔案建立一個子資料夾。
- 子資料夾名稱如下:
<Applied_skill_name>_<N> 或 <Applied_skill_name>_fields_<N>(如果已啟用 JSON 匯出 - 僅值),其中 N 是文件在該處理作業中的序號(若處理作業中有多於一份文件,則從 2 開始)。
- 對於重複物件,子 CSV 檔案的名稱會在父 CSV 檔案的欄位值中指定。
CSV 檔案的格式如下:
- 欄位名稱會寫入 CSV 檔案的第一列。
- 使用逗號分隔欄位。
- 使用的編碼類型為 UTF-8(含 BOM)。
- 空的重複欄位或重複群組實例,以及空白的表格列都不會匯出,也就是說,產生的 CSV 檔案中不會有任何空白列。
| Format | Export Option | Description | File Name |
|---|
| JSON | Text only | 僅包含已辨識文字的 JSON 檔案;不會保留文件版面配置。**注意:**選擇此選項後,將無法再匯出為 DOCX、XLSX 和 PPTX。 | <Applied_skill_name>_text.json |
| JSON | Preserve document structure | 包含已辨識文字且保留文件版面配置的 JSON 檔案。 | <Applied_skill_name>_text.json |
| XML | Text only | 僅包含已辨識文字的 XML 檔案;不會保留文件版面配置。**注意:**選擇此選項後,將無法再匯出為 DOCX、XLSX 和 PPTX。 | <Applied_skill_name>.xml |
| XML | Preserve document structure | 包含已辨識文字且保留文件版面配置的 XML 檔案。 | <Applied_skill_name>.xml |
| ALTOXML | Text only | 僅包含已辨識文字的 ALTO XML 檔案;不會保留文件版面配置。該檔案符合 ALTO 標準,結構描述版本為 4.2。**注意:**選擇此選項後,將無法再匯出為 DOCX、XLSX 和 PPTX。 | <Applied_skill_name>.xml |
| ALTOXML | Preserve document structure | 包含已辨識文字且保留文件版面配置的 ALTO XML 檔案。該檔案符合 ALTO 標準,結構描述版本為 4.2。 | <Applied_skill_name>.xml |
| TXT | | 純文字文件。使用空白字元來保留原始文件結構。 | <Applied_skill_name>.txt |
| DOCX | Editable | 可編輯的 Word 文件,但外觀可能與原始文件不完全相同。 | <Applied_skill_name>.docx |
| DOCX | Exact | 不可編輯的 Word 文件。會完整保留原始文件結構。 | <Applied_skill_name>.docx |
| XLSX | | 可編輯的 Excel 文件。會保留原始文件結構。 | <Applied_skill_name>.xlsx |
| PPTX | | 可編輯的 PowerPoint 文件。會保留原始文件結構。 | <Applied_skill_name>.pptx |
| HTML | | 保留原始文件結構的 HTML 文件。 | <Applied_skill_name>.html |
匯出到共用資料夾時,所有檔案都會儲存在該處理作業的資料夾中。如果在同一個處理作業中存在多個相同類型的文件,則會在檔名後加上從 2 開始的數字後綴。
匯出的文字會反映 Manual Review Operator 在手動審核期間對欄位值所做的變更。
JSON、XML 和 ALTOXML 的匯出選項 (Text only 和 Preserve document structure) 必須相同。如果您為其中一種格式指定了其他匯出選項,該選項也會套用到其他格式。
| Format | Export Option | Description | File Name |
|---|
| PDF | PDF/A-3a | 含有文字層且文字層位於文件影像之上的 PDF 檔案。文字層會反映手動審核過程中,由手動審核作業人員對欄位值所做的變更。 | <Applied_skill_name>.pdf |
| PDF | PDF/A-3b | 含有文字層且文字層位於文件影像之上的 PDF 檔案。文字層會反映手動審核過程中,由手動審核作業人員對欄位值所做的變更。 | <Applied_skill_name>.pdf |
| PDF | Image-only | 採用 PDF/A-3b 標準且不含文字層的不可編輯 PDF 檔案。 | <Applied_skill_name>.pdf |
| TIFF | | 含有增強後影像的 TIFF 格式檔案。 | <Applied_skill_name>.tiff |
| JPEG | Maximum quality | 含有增強後影像的 JPEG 格式檔案。如果選擇此壓縮選項,影像品質等級將設為 95%。 | pages/page_<N>.jpg |
| JPEG | Smaller file size | 含有增強後影像的 JPEG 格式檔案。如果選擇此壓縮選項,影像品質等級將設為 75%。這可讓您在維持影像可讀性的同時,仍能減少檔案大小。 | pages/page_<N>.jpg |
對於每一種 PDF 匯出選項,您可以在「較小檔案大小」 (預設選項) 與「最佳品質」之間進行選擇。較小檔案大小是透過使用 Mixed Raster Content (MRC) 壓縮達成,其會分別針對文字、圖片與背景決定最佳壓縮率。
當匯出至共用資料夾時,會為處理作業中的每一份文件建立一個子資料夾。將套用下列規則與命名方式:
- 子資料夾的命名方式如下:
<Applied_skill_name>_<N>,或 <Applied_skill_name>_fields_<N> (如果啟用了 JSON export - Values only) 。N 是該文件在處理作業中的序號 (若處理作業中有多於一份文件,則從 2 開始) 。
- 在此子資料夾中,會建立一個 Pages 子資料夾以儲存 JPG 檔案。檔案名稱為
formatted as page_<N>.jpg,其中 N 為頁面的序號。
- PDF 與 TIFF 檔案會儲存在處理作業資料夾中。
- 若在處理作業中存在多份相同類型的文件,則會在檔案名稱後加上從 2 開始的數字尾碼。
大多數匯出的檔案名稱會包含 <Applied_skill_name>,代表下列其中一項:
- 套用至該文件的最後一個文件 Skill 的名稱。
- 若未套用任何文件 Skill,則為套用至該文件的最後一個分類技能的名稱。
- 若未套用任何文件或分類技能,但在流程技能的流程中至少存在其中一種技能,則為「Unknown」。
如果有多個輸出檔案且已設定匯出至共用資料夾,則會在檔案名稱後附加遞增的數字,以確保每個名稱唯一。
如果處理作業未成功完成,Vantage 會產生一個 Error.json 檔案,其中包含一個 JSON 字串,記錄該處理作業的下列資訊:
- 處理作業識別碼
- 處理作業狀態(Failed)
- 錯誤訊息
- 包含該處理作業中所有來源檔案識別碼與名稱的陣列
預設情況下,匯出的資料會依據保留原則儲存 2 週。