跳轉到主要內容
Deep Learning for NLP 活動旨在訓練技能,使用自然語言處理(NLP)技術,從非結構化文件中抽取欄位。 Deep Learning 活動只能針對先前已由其他活動抽取出的欄位進行設定。例 如,您可以先使用 Segmentation 活動抽取一段文字段落,然後再設定 Deep Learning 活動,從該段落中抽取欄位。
**注意:**此活動僅支援類型為 Text 的欄位。

訓練要求

由於深度學習作業是透過參考標註來進行訓練,因此必須在所有文件影像上正確指定欄位的位置。訓練集中已標註文件的數量越多,欄位擷取的品質就越高。建議的範例文件數量如下:
  • 對於高變異度的文件,至少需要 150 份範例文件(每種變體 2–3 份範例文件)。
  • 對於低變異度的文件,可以從 1 份範例文件開始訓練,但每種變體至少需要 2–3 份範例文件。

使用獨立的文件集

您可以使用獨立的文件集來訓練 Deep Learning 活動。為此,從技能名稱旁的下拉清單中選取 Deep Learning 活動。然後,在 Upload 按鈕左側的下拉清單中,選取所需的文件集,或按一下 Create Set… 以建立新的文件集。您可以在此索引標籤上上傳、刪除和旋轉文件,如文件一節所述。

支援語言

支援語言:英文、法文、德文、日文、俄文、西班牙文、義大利文、葡萄牙文(標準)及荷蘭文。

設定 Deep Learning 活動

若要設定 Deep Learning 活動,請執行下列步驟:
  1. Activities 索引標籤上,將 Deep Learning 活動新增到文件處理流程中。請注意,Deep Learning 活動應放在會擷取作為 Deep Learning 活動來源之欄位的那個活動之後。
  2. Activity Properties 窗格中使用 Field 下拉式清單,選擇對應於需從中擷取欄位之非結構化文字片段的來源欄位。
  3. 選取應從來源欄位中擷取的欄位。您可以選取與來源欄位位於相同巢狀層級,或位於其下一層的欄位。
  4. 按一下 Activity Editor,前往 Fields 索引標籤,透過為應從來源欄位中擷取的欄位指定區域,來替您的文件加上標記。在 Activity Editor 中的標記流程與一般的文件標記流程相同,但有一個例外 — 要由 Deep Learning 活動擷取的欄位必須位於來源欄位的區域之內。
請依照以下準則來決定文件集的大小:
  • NLP 的 Deep Learning 活動可以從 1 份範例文件開始,但每個變體至少需要 2–3 份範例文件。
  • 如果訓練集包含 1 到 150 份文件,您可以開始訓練活動,但 Advanced Designer 會顯示警告:「建議至少新增 150 份文件」。
  • 如果訓練集包含 150 到 10,000 份文件,您可以立即開始訓練活動。這是訓練集中建議的文件數量範圍。
  • 如果訓練集包含超過 10,000 份文件,Advanced Designer 會顯示警告,指出該 skill 可能會變得不穩定。
  1. 按一下 Train Activity 以訓練該活動。
  2. 活動訓練完成後,將自動開始活動測試。測試完成後,前往 Results 索引標籤並分析此活動的欄位擷取結果。Results 索引標籤上顯示的統計資訊與 Results 索引標籤上顯示的該 skill 一般統計資訊相同。若有需要,請對標記進行必要的修改,然後再次訓練活動。
活動只能使用具有已確認標記的文件來進行訓練和測試。如果參考標記是依據預測標記自動產生的,則該文件的標記屬於未確認狀態,除非您在文件的快顯功能表中使用相應選項,將預測標記複製到參考標記。您可以在 Documents 索引標籤上檢查每份文件的標記狀態。若要確認文件的標記,您應在 Fields 索引標籤上審閱該文件。