跳轉到主要內容
若要從文件中擷取資料,請建立文件 Skill。 所涉及的情境與技術(以活動形式提供)在很大程度上取決於您要處理的文件結構。一般而言,文件可分為下列類型:

文件類型

結構化文件

結構化文件(也稱為固定格式表單)始終包含相同的資訊,版面配置可以完全相同,或僅有極少數幾種不同的版面配置。結構化文件的範例包括表單、問卷與調查。 結構化文件範例

半結構化文件

半結構化文件 通常包含相同的資訊內容,但欄位的位置、大小和數量在不同文件之間可能會有所差異,這會增加資料擷取的難度。Vantage 將依靠特定元素與欄位之間的空間與邏輯關係來定位並擷取所需的資料。半結構化文件的範例包括發票、付款指示以及提單。 Sample Semi-structured Document 如果您的文件集由結構化或半結構化文件組成,請參閱處理結構化文件處理半結構化文件章節中的使用情境。

非結構化文件

非結構化文件 由自由格式的文字組成,分成多個段落與句子,其中包含需要擷取的資料。在某些非結構化文件中,欄位可能會延伸到下一個頁面。非結構化文件的範例包括合約、電子郵件及研究文章。 非結構化文件範例 如果您的文件集由非結構化文件組成,請參閱處理非結構化文件章節中的使用情境。

混合文件集

如果您的文件集中同時包含半結構化與非結構化的文件,或者單一文件中同時具有半結構化與非結構化內容(例如,純文字段落與表格交錯出現),請參閱處理混合文件集與混合結構文件一節中的相關情境。