文档类型变体
- 对于数百种变体,在 Vantage 中使用 Online Learning 训练的技能几乎可以完美地提取数据。
- 对于数千种变体,使用 Deep Learning 活动训练的技能可以根据文档类型的复杂程度,以大约 80% 至 90% 的准确率提取数据。
- 对于某一文档类型中最重要的变体,使用 Fast Learning 和/或 Extraction Rules 活动训练的技能可以确保从复杂文档中准确提取数据。
- 对于结构化文档 (其同一类型的信息始终位于完全相同的位置) ,我们建议最多使用 10 个变体。如果某个固定表单有许多变体,我们建议将它们全部视为不同的文档类型。有关更多信息,请参见处理结构化文档。
训练和测试文档技能
- 训练集
- 测试集
- 盲集 (一个额外的测试集,包含未出现在上述两个数据集中的样本文档)
训练集要求
- 用于半结构化文档的 Deep Learning activity:
- 对于高差异性的文档,需要至少 200-300 份示例文档 (每个变体 2-3 份示例文档) 。
- 对于低差异性的文档,至少需要 10 份示例文档 (每个变体 2-3 份示例文档) 。
- Segmentation activity:
- 对于高差异性的文档,我们建议至少使用 100 份示例文档。
- 对于低差异性的文档,我们建议至少使用 20 份示例文档。
- 用于 NLP 的 Deep Learning activity:
- 对于高差异性的文档,需要至少 150 份示例文档 (每个变体 2-3 份示例文档) 。
- 对于低差异性的文档,可以从 1 份示例文档开始训练,但每个变体至少需要 2-3 份示例文档。
即使示例文档数量达不到推荐值,每个变体至少有一份示例文档也要比完全没有好。
测试集要求
盲集要求
请务必为训练和测试您的技能使用不同的文档。
配置文档技能
- 点击技能名称旁边的设置按钮,查看并调整技能设置。
- 在 Documents 选项卡上,上传一些文档。
- 在 Fields 选项卡上,对要从中提取值的数据字段进行标注,并指定其在文档中的位置。
- 在 Activities 选项卡上,配置文档处理流程。
- 在 Results 选项卡上,测试技能,查看其在示例文档上的处理效果。
- 在 Publish 选项卡上,发布技能。
