Segmentation 活動 - ABBYY Documentation

Segmentation 活動旨在將非結構化文件中的文字切分成段落。這可讓程式縮小需要由其他活動擷取之欄位的搜尋區域。此活動也可用來將整個段落擷取到文字欄位中 (例如，當您想從合約中擷取包含各項法律條款與條件的段落時) 。

典型段落的範例影像

使用案例

在以下情況下，將此活動新增至您的文件處理流程：

當您知道要從文件中擷取的具名實體始終位於同一個段落時。例如，如果您知道需要擷取的組織名稱與地址位於每份合約的第一個段落，您可以先使用 Segmentation 活動擷取第一個段落，再使用 Named Entities (NER) 活動，從該段落中擷取公司名稱與地址。此方法比從整份文件中擷取具名實體更可靠，因為您可以精確控制實體擷取的特定區域。
當需要完整擷取某個段落，因為其所有內容都具有價值時，例如包含合約付款條款的段落。

運作方式

Segmentation 活動是使用參考標記 (reference labeling) 來進行訓練，因此必須盡可能將更多文件正確標記。如果訓練集包含足夠多的文件，活動會使用交叉驗證 (cross-validation) 進行訓練。文件集會被劃分為數個子集，並多次進行訓練。每次都會將其中一個子集排除在訓練之外，並用於內部測試，以便驗證訓練結果。此技術可提升擷取結果的準確度，並偵測標記中的錯誤並為其提供修正建議。建議的範例文件數量如下：

對於變異度高的文件，至少需要 100 份範例文件。
對於變異度低的文件，至少需要 20 份範例文件。

如需更多資訊，請參閱設定 Segmentation 活動。

Advanced Designer

​使用案例

​運作方式

使用案例

運作方式