- 將游標移到某個文字上並按一下。系統會建立一個區域,並將該文字複製到欄位中。此方法適用於僅包含單一文字的欄位標註。
- 在多個文字周圍繪製一個矩形框。矩形框內的所有文字都會複製到欄位中。我們建議使用此方法來標註半結構化文件。
- 先按一下序列中的第一個文字以選取區域,按住滑鼠左鍵不放,將游標拖曳到序列中的最後一個文字。我們建議使用此方法來標註非結構化文件。
結構化文件
- 一定要準確指定每個欄位的區域,因為僅有欄位值不足以用於訓練。
- 要標出欄位的區域時,不要只點選其值,而是要標出整個預留位置。
- 如果欄位不包含值,請標出空的預留位置。
- 如果欄位由多個部分組成,請按住 Shift 鍵以加入各部分。請注意,所有部分都必須位於同一頁面上。
- 如果固定表單包含表格,請標出所有資料列,包括那些為空的列。
- 如果在已經進行部分標記之後新增了某個欄位,就必須在訓練集中的所有文件上標記這個新欄位。請檢閱你所有的文件,並在所有出現該欄位的文件上進行標記。
半結構化文件
- 請務必準確指定每個欄位的區域,因為僅有欄位值不足以用於訓練。
- 若要標示欄位的區域,請按一下其值(例如其所包含的一個或多個字詞),系統會自動建立區域。
- 如果欄位不包含任何值,請不要為該欄位建立區域。
- 不要只標示字詞的一部分,因為系統只能以完整字詞進行學習。
- 如果一個欄位由多個部分組成,請按住 Shift 鍵以加入這些部分。請注意,所有部分必須位於同一頁面。
- 如果您有重複結構,請先分析文件並建立表格或重複群組。若您的文件包含具有共用表頭、且其值旁邊沒有任何關鍵字的表格,請建立表格。若您的資料結構較鬆散,且值的旁邊有關鍵字,請建立並啟用 Allow multiple items 選項的群組。若資料在不同文件中的組織方式不同,請選擇最適合大多數文件的選項。
- 在為表格建立標記時,先標示第一列,然後按一下 Continue table from this row,並確保整個表格都已正確建立標記。若要標示第一列中的儲存格,請逐一按一下各個儲存格,系統會自動建立對應的欄。請持續進行直到整個表格都已完成標示。
- 請勿指示系統在另一個欄位的區域內尋找欄位,無論該區域是個別欄位(例如地址)或表格儲存格(例如「Description」)。如果您需要從大型文字片段中擷取資料,請使用一連串的活動。首先,使用一個用於從半結構化文件擷取資料的活動,並訓練它找到所需的區域。接著,若要從此區域中擷取特定欄位,請使用一個用於從文字(NLP)擷取資料的活動,或實作您自己的指令碼規則。
- 如果在已完成部分標記之後新增了一個欄位,則必須在訓練集中的所有文件上為此新欄位建立標記。請檢視所有文件,並在所有出現該欄位的文件上為其建立標記。
非結構化文件
- 務必準確指定每個欄位的區域,因為僅有欄位值不足以用於訓練。
- 在標記區段時(例如在 Segmentation 活動中訓練的欄位),區域應包含一個或多個完整段落。區段不得只包含段落的一部分。
- 若要劃定欄位的區域,請按一下其值(例如其中包含的文字),系統會自動建立該區域。
- 如果欄位不包含任何值,請勿為此欄位建立區域。
- 請勿標記單字的一部分,因為系統只能以完整單字進行學習。
- 有時欄位區域可能會延伸到下一頁(例如合約中的一個條款)。在這種情況下,先在第一頁標記該欄位的一部分內容,然後按住 Shift 鍵,繼續在下一頁進行標記。
- 當在另一個欄位區域內為某個欄位建立區域時(例如在區段內標記欄位),請選取所需的欄位,然後直接在另一個欄位的區域內開始標記。這樣不會選取現有區域,而是會為所選欄位建立新區域。
