跳转到主要内容Document Skill 用于从不同类型的文档中提取字段值:结构化文档(如税务表格或申请表)、半结构化文档(如发票、订单账单或航空运单)以及非结构化文档(如合同、租赁协议或电子邮件)。
可以在 ABBYY Vantage 或 Advanced Designer 中创建 Document Skill。若需为布局和字段结构多变的非标准文档创建复杂的 Document Skill,后者应作为首选工具。Advanced Designer 还允许你在 Document Skill 中组合不同技术,为非结构化文档处理添加 NLP,或对不同类型的文档设置处理条件(参见 Use cases 了解典型场景概览)。
同一类型的文档几乎总是具有相同的字段、校验规则和结构。单一文档类型的变体可能会略有不同,例如取决于文档签发的年份。
同一类型的文档可以由一个针对该文档类型不同变体训练的 Document skill 处理。Vantage 和 Advanced Designer 可以处理任意数量的该文档类型变体:
- 对于数百种变体,在 Vantage 中使用 Online Learning 训练的 Skill 几乎可以无差错地提取数据。
- 对于数千种变体,使用 Deep Learning 活动训练的 Skill 能以约 80%–90% 的准确率提取数据,具体取决于文档类型的复杂性。
- 对于某一文档类型中最关键的变体,使用 Fast Learning 和/或 Extraction Rules 活动训练的 Skill 将确保从复杂文档中准确提取数据。
- 对于结构化文档(在完全相同的位置始终包含相同类型的信息),建议最多使用 10 个变体。若固定表单具有许多变体,建议将它们视为不同的文档类型。更多信息请参见 Processing structured documents。
为获得最佳提取效果,我们建议使用三套不同的文档集来训练和测试 Document skill:
- 训练集
- 测试集
- 盲测集(一个额外的测试集,包含未纳入上述两套中的示例文档)
对于训练集,请使用具有代表性的文档集,每个变体至少包含 2–3 份示例文档。如果变体很多且该集合未包含每个变体至少一份示例文档,请考虑使用 Deep Learning 活动。此活动能够理解图像模式、文档结构、字段内容及其周围标签,并可处理未参与训练的变体。
不同活动所需的示例文档数量取决于你在 Document skill 中使用的技术:
注意: 即使你没有达到推荐的示例文档数量,每个变体至少有一份示例文档也比完全没有要好。
对于测试集,样本文档的分布应尽量与生产环境中文档的实际流转相匹配。这样可以确保准确性评估可靠。
例如,如果来自某个特定Vendor的发票占生产文档流的30%,则测试集中约30%的样本文档也应来自该Vendor。你也可以通过对生产文档流中随机抽取的文档样本测试你的Skill,以达到所需比例。
对于盲集,请务必使用此前未用于训练或测试您 Skill 的文档。在盲集上获得的提取结果将帮助您评估 Skill 的质量。
注意: 请务必分别使用不同的文档来训练和测试您的 Skill。
在开始页创建 Document skill 之后,请按以下步骤配置你的 Skill:
- 点击 Skill 名称旁的设置按钮,查看并调整 Skill 设置。
- 在 Documents 选项卡上上传一些文档。
- 在 Fields 选项卡上,标注将要提取的数据字段并指定其位置。
- 在 Activities 选项卡上,配置文档处理流程。
- 在 Results 选项卡上,测试你的 Skill,查看其在示例文档上的表现。
- 在 Publish 选项卡上,发布你的 Skill。
配置并发布 Document skill 后,它将在 ABBYY Vantage 的 Skill Catalog 中可用。
在 Skill Catalog 中,你可以查看并管理你的 Skill,包括内置 Skill、唯讀 Skill 和派生 Skill。