- 在 Activities 选项卡上,将分割活动添加到文档处理流程中。请注意,分割活动应位于从文本片段中提取字段的活动之前。
- 在 Activity Properties 窗格中,选择所有对应于要提取片段的字段。
Note: 仅支持类型为 Text 且数据类型设置为 Text 的字段。
- 单击 Activity Editor。如有需要,可在 Fields 选项卡上对文档标注进行进一步修改。
- 单击 Train Activity。训练可以在 Fast 或 Thorough 模式下执行。
- 默认选择 Fast 模式。此模式即使在较小的文档集上也能工作,并且活动训练速度较快。
- 如果您对 Fast 模式获得的结果不满意,可以考虑切换到 Thorough 模式,该模式会训练一个深度学习模型。此模式要求训练集中包含更多文档且训练时间更长,但能够在更广泛类型的文档上获得更好的表现。文档集中必须至少包含 50 份带标注的文档,但我们建议至少包含 150 份带标注的文档。要切换到 Thorough 模式,请使用 Train Activity 按钮旁边的下拉菜单。
- 您可以测试这两种模式,并选择在您的文档上效果最佳的一种。
Note: Thorough 模式仅适用于英文文档。
- 活动训练完成后,将自动开始活动测试。测试完成后,切换到 Results 选项卡并分析该活动的字段提取结果。显示在 Results 选项卡上的统计信息与该技能的 Results 选项卡中显示的一般统计信息相同。如有需要,请对标注进行必要更改并再次训练活动。
Note: 活动只能使用具有已确认标注的文档进行训练和测试。如果参考标注是基于预测标注自动生成的,则文档为未确认标注状态,除非您在文档上下文菜单中使用相应选项将预测标注复制到参考标注。您可以在 Documents 选项卡上检查每个文档的标注状态。要确认文档的标注,您应在 Fields 选项卡中对其进行审核。支持的语言:英语、俄语、德语、法语、西班牙语、意大利语、葡萄牙语(标准)、日语和荷兰语。
