跳转到主要内容为了训练和测试 Skill,你需要标注一定数量的文档。为此,你应在文档上选择包含字段值的区域。要选择区域,请执行以下任一操作:
- 将鼠标悬停在某个词上并单击它。这会创建一个区域,并将该词复制到 field。此方法适用于仅包含一个词的字段标注。
- 在多个词的周围绘制一个矩形。矩形内的所有词都会被复制到 field。建议使用此方法标注半结构化文档。
- 通过单击序列中的第一个词,并在按住鼠标左键的同时将光标拖动到序列的最后一个词来选择区域。建议使用此方法标注非结构化文档。
以下指南将根据文档类型帮助你正确标注文档。
结构化文档在完全相同的位置始终包含完全相同类型的信息。一个典型示例是预先格式化的表单。由于其版式没有变化,训练时只需标注少量示例文档。
在标注结构化文档时,请遵循以下指南。
- 请务必准确指定每个field的区域,因为仅有field的值不足以用于训练。
- 在标注field的区域时,不要只点击其值,而应标出整个占位符。
- 如果field没有值,请标出空的占位符。
- 如果一个field由多个部分组成,按住Shift键以添加这些部分。请注意,所有部分都应位于同一页上。
- 如果固定表单包含表格,请标出所有行,包括空行。
- 如果在已经完成部分标注后新增了一个field,则必须在训练集中的所有文档上为该新field进行标注。请检查所有文档,并在该新field出现的所有文档上完成标注。
半结构化文档通常包含相同或相似类型的信息,但各个 field 的位置、大小和数量可能因文档而异。半结构化文档的示例包括账单、付款指令和发票。
在标注半结构化文档时,请遵循以下准则。
- 务必准确标定每个 field 的区域,仅有 field 的值不足以用于训练。
- 要标出某个 field 的区域,点击其值(例如其中包含的一个或多个词),系统将自动创建该区域。
- 如果某个 field 没有值,请不要为其创建区域。
- 不要只标注词语的一部分,程序只能基于完整词语进行学习。
- 如果一个 field 由多个部分组成,请按住 Shift 键以依次添加这些部分。请注意,所有部分应位于同一页上。
- 如果存在重复结构,请先分析你的文档并创建表格或可重复组。若文档包含具有通用表头且数值旁没有任何关键词的表格,请创建表格。若数据结构化程度较低,且关键词位于数值旁边,请创建启用 Allow multiple items 选项的组。若不同文档中的数据组织方式不同,请选择最适合大多数文档的选项。
- 在标注表格时,先标出第一行,然后点击 Continue table from this row,并确保整张表格已被正确标注。要标出第一行中的单元格,请逐一点击其单元格,相应的列会自动创建。继续此过程,直到整张表格全部标注完毕。
如果表格很大且文档页外观相似,你可以删除相似的页,仅标注第一页、最后一页以及中间的部分页面。
- 无论是独立 field(例如地址)还是表格单元格(例如“Description”),都不要指示程序在另一个 field 的区域内查找 field。若需要从较大的文本片段中提取数据,请使用一系列活动:首先,使用用于从半结构化文档中提取数据的活动,并训练其找到所需区域;随后,为从该区域中提取特定 field,使用用于从文本(NLP)中提取数据的活动,或实现你自己的脚本规则。
- 如果在已完成部分标注之后新增了一个 field,则必须在训练集中的所有文档上标注此新 field。请检查所有文档,并在出现该新 field 的所有文档上进行标注。
非结构化文档包含未经过任何结构化处理的信息。例如:合同、学术论文和电子邮件。
在标注非结构化文档时,请遵循以下指南。
- 务必准确指定每个field的区域,因为仅有field的值不足以用于训练。
- 在标注分段时(例如在“Segmentation”活动中训练的fields),区域应包含一个或多个完整段落。一个分段不能只包含段落的一部分。
- 要标出field的区域,单击其值(例如其中包含的一个或多个单词),系统会自动创建区域。
- 如果某个field没有值,请不要为其创建区域。
- 不要仅标注单词的一部分,因为程序只能基于完整单词进行学习。
如果单词后紧跟标点符号(例如:“… and Mary Jones,(“Borrower… ”)”),请调整区域,使其不包含该标点符号。
- 有时,一个field的区域可能会跨到下一页(例如合同中的某条款)。在这种情况下,请先在第一页标注该field的一部分,然后按住Shift键在下一页继续标注。
- 当需要在另一个field的区域内为某个field创建区域时(例如在分段内标出一个field),先选择目标field,然后直接在对方区域内开始标注。这样不会选中已有区域,而是会为所选field创建一个新区域。