處理非結構化文件 - ABBYY Documentation

用於處理非結構化文件的 Skill 只能在 Advanced Designer 中建立。此類 Skill 的文件處理流程將包含使用 NLP 來擷取資料的活動。下列活動僅支援部分語言。您可以在各自的頁面中找到每個活動所支援語言的清單：

Segmentation 活動
Deep Learning for NLP 活動
Named Entities (NER) 活動
Address Parsing 活動

從整份文件中擷取預先訓練的命名實體

假設您需要建立一個文件 Skill，從非結構化文件 (例如信函) 中擷取公司名稱與地址。若要擷取這些實體，您可以設定 Named Entities (NER) 活動，其專為擷取命名實體而設計。若需要將地址拆分為街道、城市、州/省、國家、郵遞區號等組成部分，並分別擷取到不同欄位中，請設定 Address Parsing 活動。

建立文件 Skill 的步驟

開啟 Advanced Designer。在開始頁面上按一下 Create Document Skill 以建立新的 skill。
在開啟的「文件」索引標籤中，上傳用於設定您 skill 的文件。
上傳影像後，前往「欄位」索引標籤，為該 skill 建立並設定欄位結構，新增並設定將由 skill 擷取的欄位。於 Reference 區段中為文件加上標籤。
前往「Activities」索引標籤。建立 Named Entities (NER) 活動，並指定用於儲存擷取之命名實體的欄位，並將這些命名實體對應至選定的欄位。
如果您有一個包含地址的欄位，且希望將地址拆分為各個組成部分，請建立 Address Parsing 活動，並指定用於儲存擷取之地址組成部分的欄位，將地址組成部分對應至選定的欄位。
按一下 Test Skill Using Selected Documents 測試您的 skill，並分析取得的結果。
當測試結果令人滿意時，發布您的 skill。

從特定段落中擷取預先訓練的命名實體

假設您要擷取的命名實體總是位於同一個段落中。例如，如果您需要從作為買賣合約一部分的購買價格段落中擷取金額，請先使用 Segmentation 活動擷取目標段落，然後使用 Named Entities (NER) 活動擷取目標欄位。目標資料必須是 Named Entities (NER) 或 Address Parsing 活動所支援的命名實體，例如姓名、地址和日期。您也可以使用 Fast Learning 和 Extraction Rules 活動擷取目標段落。為此，請先確保文字片段已由 Fast Learning 或 Extraction Rules 活動正確擷取，然後再建立並設定 Named Entities (NER) 或 Address Parsing 活動。如果目標段落中還包含其他同類型但不應擷取的命名實體，請參考以下使用案例。預先訓練的活動是一個很好的起點，因為它們容易設定且不需要訓練。不過，在您的文件上訓練的類神經網路可能會提供更高的擷取準確度。如果您擁有大量的文件集合，也可以嘗試下一個情境，並選擇在您的文件上表現較佳的方案。

建立文件 Skill 的步驟

開啟 Advanced Designer。在開始頁面按一下 Create Document Skill 以建立新的 skill。
在隨即開啟的 Documents 索引標籤中，上傳將用於設定 skill 的文件。
上傳影像後，前往 Fields 索引標籤，為該 skill 設定欄位結構，建立並設定將透過 skill 擷取的欄位。在 Reference 區段中標記文件。
前往 Activities 索引標籤，建立 Segmentation 活動，並指定用於儲存目標段落的欄位。
開啟 Activity Editor，設定並訓練 Segmentation 活動。
返回 Activities 索引標籤，建立 Named Entities (NER) 活動，並指定來源欄位，以及用於儲存擷取之命名實體的欄位。將命名實體對應到選取的欄位。
如果有包含地址的欄位且希望將地址拆分成各組成部分，請建立 Address Parsing 活動，並指定來源欄位，以及用於儲存擷取之地址組成部分的欄位。將地址組成部分對應到選取的欄位。
按一下 Test Skill Using Selected Documents 測試 skill，並分析取得的結果。
當測試結果足夠良好後，發佈 skill。

抽取自訂命名實體

假設您需要從一個段落中抽取其中一方組織的名稱，而該段落同時包含協議雙方的資訊。此外，您還需要抽取一個電子郵件地址。在這種情況下，您應先使用 Segmentation 活動來抽取目標段落。不過，您不能使用 Named Entities (NER) 活動，因為它會從目標段落中抽取兩個組織的名稱，而且它並未針對電子郵件地址的抽取進行訓練。此時請改用 Deep Learning for NLP 活動。您也可以在此情境下用來提升預先訓練命名實體的抽取準確度。您可以同時測試預先訓練的活動與 Deep Learning 活動，然後選擇在您的文件上表現較佳的那一個。請記住，要使用此活動您需要大量文件 (最少為 50 份文件，但我們建議至少準備 150 份文件) 。您也可以測試兩種活動 (Named Entities (NER) 與 Deep Learning for NLP) ，然後選擇在您的文件上表現較佳的活動。

建立文件 Skill 的步驟

開啟 Advanced Designer。在開始頁面按一下 Create Document Skill 來建立新的 skill。
使用開啟的 Documents 索引標籤，上傳用於設定 skill 的文件。
上傳影像後，前往 Fields 索引標籤，為 skill 設定欄位結構，建立並設定將由 skill 擷取的欄位，並在 Reference 區段中為文件加上標記。
前往 Activities 索引標籤，建立 Segmentation 活動，並指定用來儲存目標段落的欄位。
開啟 Activity Editor，設定並訓練 Segmentation 活動。
回到 Activities 索引標籤，建立 Deep Learning for NLP 活動，並指定應由此活動擷取的欄位。
開啟 Activity Editor 以設定並訓練 Deep Learning 活動。
按一下 Test Skill Using Selected Documents 測試 skill，並分析取得的結果。
當測試結果足夠理想時，發佈 skill。

Advanced Designer

​從整份文件中擷取預先訓練的命名實體

​建立文件 Skill 的步驟

​從特定段落中擷取預先訓練的命名實體

​建立文件 Skill 的步驟

​抽取自訂命名實體

​建立文件 Skill 的步驟

從整份文件中擷取預先訓練的命名實體

建立文件 Skill 的步驟

從特定段落中擷取預先訓練的命名實體

建立文件 Skill 的步驟

抽取自訂命名實體

建立文件 Skill 的步驟