提示: 关于标注非结构化文档的指南,请参阅 Advanced Designer 指南。
结构化文档
- 一定要精确指定每个字段的区域,仅有字段值不足以用于训练。
- 在框选字段区域时,不要只点击字段的值,而是要框选整个占位符区域。
- 如果字段不包含值,请框选其空的占位符区域。
- 如果字段由多个部分组成,请按住 Shift 键以添加这些部分。请注意,所有部分都应位于同一页面上。
- 如果固定格式表单中包含表格,请框选所有行,包括空行。
- 如果在已经完成部分标注之后又新增了某个字段,则必须在训练集中所有文档上标注这个新字段。请检查所有文档,并在所有出现该字段的文档中标注该新字段。
半结构化文档
- 一定要精确标注每个字段的区域,因为仅有字段值不足以用于训练。
- 要标出字段的区域,请单击其值(即其包含的单词或词组),区域将自动创建。
- 如果字段不包含任何值,请不要为此字段创建区域。
- 不要只标注单词的一部分,因为程序只能基于完整单词进行学习。
- 如果一个字段由多个部分组成,请按住 Shift 键以添加这些部分。请注意,所有部分必须位于同一页面上。
- 如果存在重复结构,请先分析文档并创建表格或重复组。如果文档中包含具有统一表头且其值旁边没有任何关键字的表格,请创建表格。如果数据结构化程度较低且关键字位于值的旁边,请创建启用 Allow multiple items 选项的组。如果数据在不同文档中的组织方式不同,请选择最适合大部分文档的选项。
- 在标注表格时,先标出第一行,然后单击 Continue table from this row,并确保整个表格都已正确标注。要标出第一行中的单元格,请依次单击该行中的单元格,对应的列将自动创建。重复此步骤,直到整个表格都已标出。
提示: 如果表格较大且文档页面外观相似,您可以删除相似的页面,仅标注第一页、最后一页以及中间的若干页面。
- 无论是单个字段(例如地址)还是表格单元格(例如 “Description”),都不要指示程序在另一个字段的区域内查找字段。如果需要从较大的文本片段中提取数据,请使用 Advanced Designer。
- 如果在已完成部分标注之后添加了一个字段,则必须在训练集中的所有文档上为此新字段进行标注。请检查所有文档,并在所有出现该字段的文档上进行标注。
