跳轉到主要內容
您需要標註一定數量的文件,才能訓練和測試技能。以下指引將協助您正確地標註文件。
提示: 有關標註非結構化文件的指引,請參閱 Advanced Designer Guide。

結構化文件

結構化文件會在完全相同的位置一律包含完全相同類型的資訊。結構化文件的一個例子是預先格式化的表單。由於版面配置不會變化,您只需要標記少量範例文件來進行訓練。 在標記結構化文件時,請遵循以下準則:
  • 一定要準確指定每個欄位的區域,因為只有欄位值本身不足以用於訓練。
  • 要標出欄位的區域時,請不要只點擊其值,而是要標出整個預留位置。
  • 如果欄位沒有值,請標出空白的預留位置。
  • 如果欄位由多個部分組成,請按住 Shift 鍵以加入這些部分。請注意,所有部分都必須位於同一頁面上。
  • 如果固定格式表單包含表格,請標出所有資料列,包括空白列。
  • 如果在已完成部分標記之後新增了欄位,就必須在訓練集中所有文件上標記這個新欄位。請檢查所有文件,並在出現該欄位的所有文件上進行標記。

半結構化文件

半結構化文件通常包含相同或相似類型的資訊,但各欄位的位置、大小與數量可能會因文件而異。半結構化文件的範例包括帳單、付款指示單與發票。 在為半結構化文件標記時,請遵循以下指引:
  • 請務必準確指定每個欄位的區域,因為僅有欄位值不足以用於訓練。
  • 若要標出欄位的區域,請按一下其值(也就是其所包含的字或詞語),區域就會自動建立。
  • 若欄位不包含任何值,請不要為此欄位建立區域。
  • 請不要只標記單字或詞語的一部分,因為程式只能以完整單字或詞語進行學習。
  • 若欄位由多個部分組成,請按住 Shift 鍵以加入這些部分。請注意,所有部分都必須位於同一頁面上。
  • 若您有重複的結構,請先分析您的文件,再建立表格或重複群組。若您的文件包含具有共同標頭,且其值旁邊沒有任何關鍵字的表格,請建立表格。若您的資料結構較鬆散,且值的旁邊有關鍵字,請建立啟用 Allow multiple items 選項的群組。若資料在不同文件上的組織方式不同,請選擇最符合多數文件的選項。
  • 在為表格標記時,先標記第一列,然後按一下 Continue table from this row,並確保整個表格都已正確標記。若要標出第一列中的儲存格,請逐一按一下各儲存格,對應的欄會自動建立。持續進行,直到整個表格都已標記完成。
提示: 如果表格很大且文件頁面外觀相似,您可以刪除相似的頁面,只標記第一頁、最後一頁以及中間的部分頁面。
  • 不要指示程式在另一個欄位的區域內尋找欄位,無論該欄位是個別欄位(例如地址),或是表格儲存格(例如「Description」)。如果您需要從大型文字片段中擷取資料,請使用 Advanced Designer。
  • 如果在已經進行部分標記之後才新增欄位,則必須在訓練集中所有文件上為這個新欄位進行標記。請檢查您所有的文件,並在所有出現該欄位的文件上為其加上標記。