跳轉到主要內容
您需要標註一定數量的文件,才能訓練與測試技能。為此,應在文件上選取包含欄位值的區域。若要選取區域,請採用以下任一方式:
  • 將游標移到某個文字上並按一下。系統會建立一個區域,並將該文字複製到欄位中。此方法適用於僅包含單一文字的欄位標註。
  • 在多個文字周圍繪製一個矩形框。矩形框內的所有文字都會複製到欄位中。我們建議使用此方法來標註半結構化文件。
  • 先按一下序列中的第一個文字以選取區域,按住滑鼠左鍵不放,將游標拖曳到序列中的最後一個文字。我們建議使用此方法來標註非結構化文件。
以下指南將協助您根據文件類型正確標註文件。

結構化文件

結構化文件在完全相同的位置包含完全相同類型的資訊。結構化文件的一個例子是預先格式化的表單。由於其版面配置沒有變化,你只需要標記少量範例文件來進行訓練。 在標記結構化文件時,請遵循下列準則。
  • 一定要準確指定每個欄位的區域,因為僅有欄位值不足以用於訓練。
  • 要標出欄位的區域時,不要只點選其值,而是要標出整個預留位置。
  • 如果欄位不包含值,請標出空的預留位置。
  • 如果欄位由多個部分組成,請按住 Shift 鍵以加入各部分。請注意,所有部分都必須位於同一頁面上。
  • 如果固定表單包含表格,請標出所有資料列,包括那些為空的列。
  • 如果在已經進行部分標記之後新增了某個欄位,就必須在訓練集中的所有文件上標記這個新欄位。請檢閱你所有的文件,並在所有出現該欄位的文件上進行標記。

半結構化文件

半結構化文件通常包含相同或相似類型的資訊,但欄位的位置、大小和數量可能會在不同文件之間有所差異。半結構化文件的範例包括帳單、付款指示和發票。 在為半結構化文件建立標記時,請遵循以下指引。
  • 請務必準確指定每個欄位的區域,因為僅有欄位值不足以用於訓練。
  • 若要標示欄位的區域,請按一下其值(例如其所包含的一個或多個字詞),系統會自動建立區域。
  • 如果欄位不包含任何值,請不要為該欄位建立區域。
  • 不要只標示字詞的一部分,因為系統只能以完整字詞進行學習。
  • 如果一個欄位由多個部分組成,請按住 Shift 鍵以加入這些部分。請注意,所有部分必須位於同一頁面。
  • 如果您有重複結構,請先分析文件並建立表格或重複群組。若您的文件包含具有共用表頭、且其值旁邊沒有任何關鍵字的表格,請建立表格。若您的資料結構較鬆散,且值的旁邊有關鍵字,請建立並啟用 Allow multiple items 選項的群組。若資料在不同文件中的組織方式不同,請選擇最適合大多數文件的選項。
  • 在為表格建立標記時,先標示第一列,然後按一下 Continue table from this row,並確保整個表格都已正確建立標記。若要標示第一列中的儲存格,請逐一按一下各個儲存格,系統會自動建立對應的欄。請持續進行直到整個表格都已完成標示。
如果表格很大且文件頁面在外觀上相似,您可以刪除相似的頁面,只為第一頁、最後一頁以及中間的部分頁面建立標記。
  • 請勿指示系統在另一個欄位的區域內尋找欄位,無論該區域是個別欄位(例如地址)或表格儲存格(例如「Description」)。如果您需要從大型文字片段中擷取資料,請使用一連串的活動。首先,使用一個用於從半結構化文件擷取資料的活動,並訓練它找到所需的區域。接著,若要從此區域中擷取特定欄位,請使用一個用於從文字(NLP)擷取資料的活動,或實作您自己的指令碼規則。
  • 如果在已完成部分標記之後新增了一個欄位,則必須在訓練集中的所有文件上為此新欄位建立標記。請檢視所有文件,並在所有出現該欄位的文件上為其建立標記。

非結構化文件

非結構化文件包含未以任何方式結構化或組織的資訊。非結構化文件的典型範例包括合約、學術文章與電子郵件訊息。 在標記非結構化文件時,請遵循以下準則。
  • 務必準確指定每個欄位的區域,因為僅有欄位值不足以用於訓練。
  • 在標記區段時(例如在 Segmentation 活動中訓練的欄位),區域應包含一個或多個完整段落。區段不得只包含段落的一部分。
  • 若要劃定欄位的區域,請按一下其值(例如其中包含的文字),系統會自動建立該區域。
  • 如果欄位不包含任何值,請勿為此欄位建立區域。
  • 請勿標記單字的一部分,因為系統只能以完整單字進行學習。
如果單字後面跟著標點符號(例如:「… and Mary Jones,(“Borrower… ”)」),請調整區域,使其不將標點符號包含在內。
  • 有時欄位區域可能會延伸到下一頁(例如合約中的一個條款)。在這種情況下,先在第一頁標記該欄位的一部分內容,然後按住 Shift 鍵,繼續在下一頁進行標記。
  • 當在另一個欄位區域內為某個欄位建立區域時(例如在區段內標記欄位),請選取所需的欄位,然後直接在另一個欄位的區域內開始標記。這樣不會選取現有區域,而是會為所選欄位建立新區域。