跳转到主要内容
要训练和测试 Skill,您需要为一定数量的文档进行标注。以下指南将帮助您正确完成标注。
提示: 关于标注文档(非结构化)的指南,请参阅 Advanced Designer 指南。

结构化文档

结构化文档在完全相同的位置始终包含完全相同类型的信息。结构化文档的一个例子是预先格式化的表单。由于其版式没有变化,您只需标注少量示例文档用于训练。 在标注结构化文档时,请遵循以下指南:
  • 请务必准确指定每个field的区域,因为仅有field的值不足以用于训练。
  • 要标注某个field的区域时,不要点击其值,而应标出整个占位符。
  • 如果某个field没有值,请标出其空占位符。
  • 如果一个field由多个部分组成,请按住Shift键以添加这些部分。请注意,所有部分都应位于同一页上。
  • 如果固定表单包含表格,请标出所有行,包括空行。
  • 如果在已完成部分标注后添加了某个field,则必须在训练集中所有文档上标注此新field。请审阅您所有文档,并在出现该新field的所有文档上进行标注。

半结构化文档

半结构化文档通常包含相同或相似类型的信息,但各个field的位置、大小和数量可能因文档而异。半结构化文档的示例包括账单、付款指令和发票。 在标注半结构化文档时,请遵循以下指南:
  • 请务必准确指定每个field的区域,因为仅有field值不足以用于训练。
  • 要标出某个field的区域,请单击其值(即其包含的一个或多个词),系统会自动创建相应区域。
  • 如果某个field没有值,请不要为其创建区域。
  • 请不要只标注单词的一部分,程序只能基于完整单词进行学习。
  • 如果一个field由多个部分组成,按住Shift键以添加这些部分。请注意,所有部分应位于同一页。
  • 如果存在可重复结构,请先分析文档,并创建表格或可重复组。若文档包含具有通用表头且其值旁没有任何关键词的表格,请创建表格。若数据结构化程度较低且值旁有关键词,请创建启用Allow multiple items选项的组。若不同文档中的数据组织方式不同,请选择最适合大多数文档的选项。
  • 标注表格时,先标出第一行,然后单击Continue table from this row,并确保整个表格已被正确标注。要标出第一行中的单元格,请逐一单击其单元格,对应的列将自动创建。持续操作,直至整个表格均已标出。
提示: 如果表格很大且文档页外观相似,您可以删除相似的页,只标注第一页、最后一页以及中间的若干页。
  • 无论是单个field(例如地址)还是表格单元格(例如 “Description”),都不要指示程序在另一个field的区域内查找field。若需要从较大的文本片段中提取数据,请使用Advanced Designer。
  • 如果在已完成部分标注之后添加了某个field,则必须在训练集中的所有文档上标注该新field。请检查所有文档,并在出现该新field的所有文档上进行标注。