跳轉到主要內容

從混合文件集(半結構化與非結構化)中擷取資料

假設需要由單一文件 Skill 同時處理半結構化與非結構化文件。在這種情況下,先使用 Classify By Text and Image 活動,依據文字與影像將文件分類到對應的類型。該活動結合了文字與幾何特徵,甚至能夠分類品質較差的影像,以及只能透過圖形物件(例如簽名或印章)區分的不同類別文件。 使用 IF 活動來分支文件處理流程,將非結構化文件與半結構化文件分開。每個分支都可以使用〈處理半結構化文件〉與〈處理非結構化文件〉章節中所描述的其中一種處理方案。例如,半結構化文件可以透過 Fast Learning 活動處理,而非結構化文件則可以透過 Segmentation 活動與用於 NLP 的 Deep Learning 活動組合來處理。 由於上述這些文件都屬於同一文件類型,因此它們會具有相同的一組輸出欄位。 混合文件處理流程

建立文件 Skill 的步驟

  1. 開啟 Advanced Designer。在開始頁面按一下 Create Document Skill 來建立新的 Skill。
  2. 使用隨即開啟的 Documents 索引標籤,上傳將用於設定 Skill 的文件。為了確保文件集合足以用來設定分類器,請為每種變體新增大致相同數量的文件。
  3. 上傳影像後,前往 Fields 索引標籤,為此 Skill 設定欄位結構,方法是建立並設定將由 Skill 擷取的欄位。在 Reference 區段中標記文件。
  4. 前往 Activities 索引標籤,將 Classify 活動新增到文件處理流程中。
  5. 開啟 Activity Editor 並設定 Classify 活動。為此,請為每個變體建立對應的類別,將這些類別指派給您的文件,並訓練該活動。
  6. 返回 Activities 索引標籤,透過新增 IF 活動,以及用於處理每種文件變體的個別活動,為處理流程設定條件式分支。
  7. 設定並訓練您建立的活動。
  8. 按一下 Test Skill Using Selected Documents 測試您的 Skill,並分析取得的結果。
  9. 當測試結果足夠令人滿意時,發佈您的 Skill。

從半結構化文件的表格儲存格中擷取文字

假設您正在從含有表格的半結構化文件中擷取資料,且不僅需要擷取每個儲存格的文字,還需要擷取嵌入於儲存格文字中的特定數值。例如,若您需要從 Closing Disclosure 文件中擷取關於借款人的資訊,您可以使用適用於半結構化文件的 Fast Learning 活動來擷取目標表格儲存格的完整文字,然後再使用適用於非結構化文件的活動(在此範例中為 Named Entities (NER) 和 Address Parsing),從目標儲存格中擷取借款人的姓名以及其地址的一部分。 搭配 NER 和 Address Parsing 的 Fast Learning

建立文件 Skill 的步驟

  1. 開啟 Advanced Designer。在起始頁面按一下 Create Document Skill 來建立新的 skill。
  2. 使用開啟的 Documents 索引標籤,上傳用於設定 skill 的文件。
  3. 上傳影像後,前往 Fields 索引標籤,為該 skill 建立欄位結構,建立並設定將由 skill 擷取的欄位。在 Reference 區段中為文件加上標籤。
  4. 前往 Activities 索引標籤,建立 Fast Learning 活動,並指定此活動要擷取的欄位。
  5. 開啟 Activity Editor,設定並訓練 Fast Learning 活動。
  6. 回到 Activities 索引標籤,建立 Named Entities (NER) 活動,並指定來源欄位,以及用於儲存擷取之命名實體的欄位。將命名實體對應到選定的欄位。
  7. 如果您有包含地址的欄位,且希望將地址拆分為各個組成部分,請建立 Address Parsing 活動,並指定來源欄位,以及用於儲存擷取之地址組成部分的欄位。將地址組成部分對應到選定的欄位。
  8. 按一下 Test Skill Using Selected Documents 來測試您的 skill,並分析結果。
  9. 當測試結果令人滿意時,發佈您的 skill。

從包含表格、標題、頁首與頁尾的非結構化文件中擷取資料

假設您需要從包含表格、標題、頁首或頁尾的非結構化文件(例如合約)中擷取資料。 範例混合文件 在這種情況下,請設定 Segmentation 活動以偵測連續文字段落,並設定 Extraction Rules 活動以偵測半結構化插入片段。偵測到所需的文件片段後,使用適當的活動從這些片段中擷取欄位。

建立文件 Skill 的步驟

  1. 開啟 Advanced Designer。在開始頁面上按一下 Create Document Skill 來建立新的 skill。
  2. 在隨即開啟的 Documents 分頁中,上傳將用於設定 skill 的文件。
  3. 上傳影像後,前往 Fields 分頁,為 skill 建立並設定將由 skill 擷取的欄位結構。在 Reference 區段中標記文件。
  4. 前往 Activities 分頁,建立一個 Segmentation 活動,並指定用於儲存純文字段落的欄位。
  5. 開啟 Activity Editor,設定並訓練 Segmentation 活動。
  6. 返回 Activities 分頁,建立一個 Extraction Rules 活動,並指定用於儲存文件中半結構化片段資料的欄位。
  7. 開啟 Activity Editor,設定並測試 Extraction Rules 活動。
  8. 按一下 Test Skill Using Selected Documents 測試你的 skill,並分析取得的結果。
  9. 當測試結果令人滿意時,發佈你的 skill。