跳转到主要内容要训练和测试 Skill,您需要为一定数量的文档进行标注。以下指南将帮助您正确完成标注。
提示: 关于标注文档(非结构化)的指南,请参阅 Advanced Designer 指南。
结构化文档在完全相同的位置始终包含完全相同类型的信息。结构化文档的一个示例是预设格式的表单。由于其版式无变化,您只需标注少量示例文档即可用于训练。
在标注结构化文档时,请遵循以下指南:
- 务必准确指定每个field的区域,因为仅有field的值不足以用于训练。
- 要标记某个field的区域,请不要仅点击其值,而应标出整个占位符。
- 如果某个field没有值,请标出其空占位符。
- 如果某个field由多个部分组成,按住Shift键以添加这些部分。请注意,所有部分应位于同一页上。
- 如果固定表单包含表格,请标出所有行,包括空行。
- 如果在完成部分标注后新增了一个field,则必须在训练集中的所有文档上标注该新field。请检查所有文档,并在出现该field的所有文档上进行标注。
半结构化文档通常包含相同或相似类型的信息,但在不同文档中,字段的位置、大小和数量可能会有所差异。半结构化文档的示例包括账单、付款指令和发票。
在标注半结构化文档时,请遵循以下指南:
- 请务必准确标定每个字段的区域,仅有字段值不足以用于训练。
- 要标定某个字段的区域,单击其值(即其中包含的词或词组),系统会自动创建区域。
- 如果某个字段没有值,请不要为其创建区域。
- 不要标注单词的部分,因为程序只能基于完整单词进行学习。
- 如果一个字段由多个部分组成,按住 Shift 键以添加这些部分。请注意,所有部分应在同一页上。
- 如果存在可重复的结构,请先分析文档,并创建表格或可重复组。如果文档包含具有通用表头且值旁没有任何关键词的表格,请创建表格。如果数据结构化程度较低,且值旁有关键词,请创建一个启用 Allow multiple items 选项的组。如果不同文档的数据组织方式不同,请选择最适合大多数文档的选项。
- 标注表格时,先标注第一行,然后单击 Continue table from this row,并确保整个表格已被正确标注。要标注第一行中的单元格,依次单击这些单元格,相应的列会自动创建。继续操作,直到整个表格都标注完成。
提示: 如果表格较大且文档页外观相似,您可以删除相似的页,仅标注第一页、最后一页以及中间的部分页。
- 请不要指示程序在另一个字段的区域内查找字段,无论它是单个字段(例如地址)还是表格单元格(例如“Description”)。如果需要从较大的文本片段中提取数据,请使用 Advanced Designer。
- 如果在已完成部分标注后添加了新字段,则必须在训练集中所有文档上标注该新字段。请检查所有文档,并在出现该字段的所有文档上进行标注。