跳轉到主要內容
用於半結構化文件的 Deep Learning 活動旨在使用類神經網路,建置具生產等級品質的認知技能,以從半結構化文件中擷取欄位。
注意: 此活動無法擷取複雜結構(例如巢狀表格,也就是表格中包含重複結構)以及除 Text 以外型別的欄位。若要擷取此類結構,請使用 Extraction Rules 活動。

使用情境

在下列情況下,請將此活動加入您的文件處理流程中:
  • 當您的 skill 將用於處理某一特定文件類型的多種變體時。
  • 當您計劃處理您的 skill 尚未受過訓練的文件變體時。例如,您可能已有一個包含 Fast Learning 活動的文件 Skill,並已訓練其從多家銀行的貸款協議中擷取欄位(且其欄位結構各不相同)。如果您決定使用這個既有的 skill 來處理來自某家該 skill 尚未接觸過的新銀行的貸款協議,擷取品質可能會未臻理想。為了提升擷取品質,您可以改用 Deep Learning 活動來取代 Fast Learning 活動。

運作方式

深度學習結合了卷積神經網路 (CNN)、循環神經網路 (RNN) 與自然語言處理 (NLP) 標記 (tokens)。透過這種組合,深度學習能夠理解影像模式、文件結構、欄位內容及其周圍標籤。它需要大量文件來進行訓練,但可以泛化到尚未遇過的新文件版面配置,提供真正「無範本」(templateless) 的擷取方式,這是在訓練階段無法取得完整版面配置集合時,仍然能有效處理文件的唯一方法。

訓練需求

為獲得最佳結果,正確標註儘可能多的文件至關重要。用於訓練的範例文件數量會顯著影響欄位擷取的品質。建議使用的訓練範例文件數量如下:
  • 對於高變異性的文件:需要至少 200–300 份範例文件(每種變體 2–3 份範例文件)。
  • 對於低變異性的文件:需要至少 10 份範例文件(每種變體 2–3 份範例文件)。
最低需求為 10 份,但建議使用超過 500 份已標註文件,並確保您的訓練集中大致包含相同數量的各種您打算處理的文件變體(理想情況下,每種變體至少有數個範例)。您不必提供所有可能的變體,但系統需要看到足夠多樣化的文件,才能歸納出模式並泛化到尚未遇到的變體。例如,在發票的情況下,當訓練集中包含 500 到 1,000 個不同供應商,且每個供應商有兩到三份範例文件時,預期系統能夠良好地泛化到新的供應商。雖然深度學習本身具有泛化能力,但在訓練集中納入最常見的文件變體仍然是有益的,例如開立發票數量最多的供應商。

訓練特性

與 Fast Learning 活動僅在較少數量的文件上進行訓練、並適用於較精簡的文件集不同,訓練 Deep Learning 活動所需時間更長,且需要更多系統資源(目前為 16 個 CPU 核心以及 64 GB RAM 記憶體)。 訓練神經網路是一個迭代的過程。每次迭代稱為一個 epoch。在每個 epoch 開始時,文件集會被分為訓練子集與驗證子集。在一個 epoch 期間,訓練子集中的所有文件都會經由訓練演算法處理。接著,使用驗證子集評估神經網路的效能,並更新每個欄位以及整個文件集的評估指標。 如需更多資訊,請參閱 設定 Deep Learning 活動