- 将鼠标悬停在某个单词上并单击该单词。这将创建一个区域,并将该单词复制到字段中。使用此方法标注仅包含一个单词的字段。
- 在若干单词周围绘制一个矩形。该矩形内的所有单词都会被复制到字段中。我们建议使用此方法标注半结构化文档。
- 通过单击序列中的第一个单词,并在按住鼠标左键的同时将光标拖动到序列中的最后一个单词来选择区域。我们建议使用此方法标注非结构化文档。
结构化文档
- 一定要准确指定每个字段的区域,因为仅有字段值不足以用于训练。
- 要标出字段的区域,不要只点击它的值,而是要框选整个占位区域。
- 如果字段没有值,也要标出空的占位区域。
- 如果一个字段由多个部分组成,请按住 Shift 键以添加这些部分。请注意,所有部分都必须在同一页面上。
- 如果固定表单中包含表格,请标出所有行,包括那些为空的行。
- 如果在已经完成部分标注之后又新增了一个字段,则必须在训练集中的所有文档上标注这个新字段。请检查所有文档,并在所有出现该字段的文档上进行标注。
半结构化文档
- 请务必准确指定每个字段的区域,因为仅有字段值不足以用于训练。
- 要标出字段的区域,请单击其值(例如它包含的一个或多个单词),系统会自动创建相应区域。
- 如果某个字段不包含值,则不要为该字段创建区域。
- 不要只标出单词的一部分,因为程序只能基于完整单词进行学习。
- 如果一个字段由多个部分组成,请按住 Shift 键以添加这些部分。请注意,所有部分应位于同一页面上。
- 如果存在重复结构,请先分析您的文档,并创建表格或重复组。如果文档中包含具有通用表头且其值旁边没有任何关键字的表格,请创建表格。如果数据结构化程度较低,并且在值旁边存在关键字,请创建组并启用 Allow multiple items 选项。如果不同文档中的数据组织方式不同,请选择最适合大多数组文档的选项。
- 在标注表格时,先标出第一行,然后单击 Continue table from this row,并确保整个表格都已正确标注。要标出第一行中的单元格,请逐一单击这些单元格,对应的列将自动创建。继续此操作,直到整个表格都已标注完成。
- 不要指示程序在另一个字段的区域内查找字段,无论它是单独的字段(例如地址)还是表格单元格(例如“Description”)。如果需要从较大的文本片段中提取数据,请使用一系列活动。首先,使用专为从半结构化文档中提取数据而设计的活动,并训练其找到所需区域。接下来,要从该区域中提取特定字段时,请使用专为从文本(NLP)中提取数据而设计的活动,或实现您自己的脚本规则。
- 如果在已经完成部分标注之后添加了一个字段,则必须在训练集中所有文档上对这个新字段进行标注。请检查所有文档,并在所有出现该字段的文档上对其进行标注。
非结构化文档
- 一定要准确指定每个字段的区域,因为仅有字段值不足以用于训练。
- 在标注片段时(例如在 Segmentation 活动中训练的字段),区域应包括一个或多个完整段落。片段不能只包含段落的一部分。
- 若要标出某个字段的区域,请单击其值(例如它所包含的单词或词组),系统会自动创建区域。
- 如果某个字段不包含任何值,请不要为此字段创建区域。
- 不要标注单词的一部分,因为程序只能基于完整单词进行学习。
- 有时,一个字段区域可能会延伸到下一页(例如合同中的条款)。在这种情况下,请先在第一页标注字段的一部分,然后按住 Shift 键在下一页继续标注。
- 当在另一个字段区域内为某个字段创建区域时(例如在一个片段中标出某个字段),请选择所需字段,然后直接在另一个字段的区域内开始标注。这样不会选中现有区域,而是会为所选字段创建一个新区域。
