跳轉到主要內容
Segmentation 活動旨在將非結構化文件中的文字切分成段落。這可讓程式縮小需要由其他活動擷取之欄位的搜尋區域。此活動也可用來將整個段落擷取到文字欄位中(例如,當您想從合約中擷取包含各項法律條款與條件的段落時)。
Sample Paragraph

使用案例

在以下情況下,將此活動新增至您的文件處理流程:
  • 當您知道要從文件中擷取的具名實體始終位於同一個段落時。例如,如果您知道需要擷取的組織名稱與地址位於每份合約的第一個段落,您可以先使用 Segmentation 活動擷取第一個段落,再使用 Named Entities (NER) 活動,從該段落中擷取公司名稱與地址。此方法比從整份文件中擷取具名實體更可靠,因為您可以精確控制實體擷取的特定區域。
  • 當需要完整擷取某個段落,因為其所有內容都具有價值時,例如包含合約付款條款的段落。

運作方式

Segmentation 活動是使用參考標記(reference labeling)來進行訓練,因此必須盡可能將更多文件正確標記。 如果訓練集包含足夠多的文件,活動會使用交叉驗證(cross-validation)進行訓練。文件集會被劃分為數個子集,並多次進行訓練。每次都會將其中一個子集排除在訓練之外,並用於內部測試,以便驗證訓練結果。此技術可提升擷取結果的準確度,並偵測標記中的錯誤並為其提供修正建議。 建議的範例文件數量如下:
  • 對於變異度高的文件,至少需要 100 份範例文件。
  • 對於變異度低的文件,至少需要 20 份範例文件。
如需更多資訊,請參閱 設定 Segmentation 活動