跳转到主要内容您需要标注一定数量的文档,以便训练和测试一个 Skill。为此,您应在文档中选择包含字段值的区域。要选择区域,请执行以下任一操作:
- 将鼠标悬停在某个词上并单击。系统会创建一个区域,并将该词复制到 field。此方法适用于仅包含一个词的字段。
- 在若干词的周围绘制一个矩形。矩形内的所有词都会被复制到 field。我们建议使用此方法标注半结构化文档。
- 单击序列中的第一个词,按住鼠标左键并拖动光标至序列的最后一个词以选择区域。我们建议使用此方法标注非结构化文档。
以下指南将根据文档类型帮助您正确标注文档。
结构化文档在完全相同的位置始终包含完全相同类型的信息。一个典型示例是固定格式的表单。由于其版式无变化,您只需标注少量示例文档用于训练。
在标注结构化文档时,请遵循以下指南。
- 请务必准确指定每个field的区域,因为仅有field的值不足以用于训练。
- 要标出field的区域,不要点击其值,而应标出整个占位符。
- 如果某个field没有值,请标出其空占位符。
- 如果一个field由多个部分组成,请按住Shift键以添加这些部分。请注意,所有部分应位于同一页上。
- 如果固定表单包含表格,请标出所有行,包括空行。
- 如果在已经完成部分标注之后新增了一个field,则必须在训练集中的所有文档上为该新field进行标注。请检查您所有的文档,并在所有出现该field的文档上完成标注。
半结构化文档通常包含相同或相似类型的信息,但每个文档中 field 的位置、大小和数量可能会有所不同。半结构化文档的示例包括账单、付款指令和发票。
在标注半结构化文档时,请遵循以下指南。
- 务必准确指定每个 field 的区域,仅有 field 的值不足以用于训练。
- 要标出某个 field 的区域,请单击其值(例如其中包含的词语),系统会自动创建区域。
- 如果某个 field 没有值,请不要为其创建区域。
- 不要只标注词语的一部分,程序只能基于完整词语进行学习。
- 如果一个 field 由多个部分组成,按住 Shift 键以添加这些部分。请注意,所有部分应位于同一页上。
- 如果存在可重复的结构,请先分析文档,并创建表格或可重复组。若文档包含具有通用表头且其值旁没有任何关键字的表格,请创建表格。若数据结构化程度较低,且关键字位于值旁,请创建启用 Allow multiple items 选项的组。若不同文档中的数据组织方式不同,请选择最适合大多数文档的选项。
- 在标注表格时,先标出第一行,然后单击 Continue table from this row,并确保整个表格已正确标注。要标出第一行中的单元格,请逐一单击其单元格,将自动创建对应的列。按此方式继续,直到标完整个表格。
如果表格很大且文档页外观相似,可以删除相似的页,只标注第一页、最后一页以及中间的部分页。
- 无论是单个 field(例如地址)还是表格单元格(例如“Description”),都不要指示程序在另一个 field 的区域内查找 field。若需要从大段文本片段中提取数据,请使用一系列活动:首先使用用于从半结构化文档提取数据的活动,并训练其定位所需区域;接着,为从该区域中提取特定字段,使用用于从文本(NLP)提取数据的活动,或实现自定义脚本规则。
- 如果在已完成部分标注后新增了某个 field,必须在训练集中的所有文档上标注该新 field。请检查所有文档,并在出现该新 field 的所有文档上完成标注。
非结构化文档包含未以任何方式结构化的信息。示例包括合同、学术文章和电子邮件。
为非结构化文档做标注时,请遵循以下指南。
- 请务必准确指定每个field的区域,因为仅有field的值不足以用于训练。
- 标注片段时(例如在 Segmentation 活动中训练的fields),区域应包含一个或多个完整段落。片段不能只包含段落的一部分。
- 要标出某个field的区域,单击其值(例如其中的词语),系统将自动创建区域。
- 如果某个field不包含任何值,请不要为其创建区域。
- 不要标注词语的一部分,因为程序只能基于完整词语进行学习。
如果某个词语后跟标点符号(例如“… and Mary Jones,(“Borrower… ”)”),请调整区域,使其不包含该标点符号。
- 有时,field区域可能会延伸到下一页(例如合同中的条款)。在这种情况下,请先在第一页标注该field的一部分,然后按住Shift键在下一页继续标注。
- 当需要在另一个field的区域内为某个field创建区域时(例如在片段内标出某个field),请选择所需的field,然后直接在另一个field的区域内开始标注。这样不会选中现有区域,而是会为所选field创建一个新区域。