跳转到主要内容
文档技能用于从不同类型的文档中提取字段值:结构化文档 (例如税表或申请表) 、半结构化文档 (例如发票、订单账单或航空运单) 以及非结构化文档 (例如合同、租赁协议或电子邮件) 。 文档技能可以在 ABBYY Vantage 中创建,也可以在 Advanced Designer 中创建。如果需要为版式和字段结构多变的非标准文档创建复杂的文档技能,则应优先选择后者作为工具。Advanced Designer 还允许你在文档技能中组合使用不同技术,添加用于处理非结构化文档的 NLP 功能,或为处理不同类型的文档设置条件 (典型场景概览请参见 Use cases) 。

文档类型变体

同一类型的文档几乎总是具有相同的字段、验证规则和结构。单一文档类型的各个变体之间可能会略有不同,例如,取决于文档出具的年份。 同一类型的文档可以由一个在该文档类型不同变体上训练的文档技能进行处理。Vantage 和 Advanced Designer 可以处理某一文档类型下任意数量的变体:
  • 对于数百种变体,在 Vantage 中使用 Online Learning 训练的技能几乎可以完美地提取数据。
  • 对于数千种变体,使用 Deep Learning 活动训练的技能可以根据文档类型的复杂程度,以大约 80% 至 90% 的准确率提取数据。
  • 对于某一文档类型中最重要的变体,使用 Fast Learning 和/或 Extraction Rules 活动训练的技能可以确保从复杂文档中准确提取数据。
  • 对于结构化文档 (其同一类型的信息始终位于完全相同的位置) ,我们建议最多使用 10 个变体。如果某个固定表单有许多变体,我们建议将它们全部视为不同的文档类型。有关更多信息,请参见处理结构化文档

训练和测试文档技能

为了获得最佳的提取效果,我们建议使用三种不同的文档数据集来训练和测试文档技能:
  • 训练集
  • 测试集
  • 盲集 (一个额外的测试集,包含未出现在上述两个数据集中的样本文档)

训练集要求

对于 训练集,应使用具有代表性的文档集合,确保每个变体至少包含 2-3 份示例文档。 如果存在大量变体,而集合中无法保证每个变体至少有一份示例文档,请考虑使用 Deep Learning activity。该 activity 能够识别图像模式、文档结构、字段内容及其周围的标签信息,并可以处理未用于训练的变体。 各个 activity 所需的示例文档数量取决于在文档技能中使用的技术:
  • 用于半结构化文档的 Deep Learning activity
    • 对于高差异性的文档,需要至少 200-300 份示例文档 (每个变体 2-3 份示例文档) 。
    • 对于低差异性的文档,至少需要 10 份示例文档 (每个变体 2-3 份示例文档) 。
  • Segmentation activity
    • 对于高差异性的文档,我们建议至少使用 100 份示例文档。
    • 对于低差异性的文档,我们建议至少使用 20 份示例文档。
  • 用于 NLP 的 Deep Learning activity
    • 对于高差异性的文档,需要至少 150 份示例文档 (每个变体 2-3 份示例文档) 。
    • 对于低差异性的文档,可以从 1 份示例文档开始训练,但每个变体至少需要 2-3 份示例文档。
即使示例文档数量达不到推荐值,每个变体至少有一份示例文档也要比完全没有好。

测试集要求

对于测试集,样本文档的分布必须与实际生产环境中的文档流相似。这样才能确保准确性评估结果可靠。 例如,如果来自某个特定供应商的发票占生产文档流的 30%,那么测试集中样本文档中大约 30% 也应来自该供应商。你也可以通过在生产文档流中随机抽取文档样本来测试你的技能,以满足所需的比例。

盲集要求

对于盲集,请务必使用尚未用于训练或测试您的技能的文档。在盲集上获得的抽取结果将帮助您评估技能的质量。
请务必为训练和测试您的技能使用不同的文档。

配置文档技能

在起始页创建文档技能后,按照以下步骤配置技能:
  1. 点击技能名称旁边的设置按钮,查看并调整技能设置。
  2. 在 Documents 选项卡上,上传一些文档。
  3. 在 Fields 选项卡上,对要从中提取值的数据字段进行标注,并指定其在文档中的位置。
  4. 在 Activities 选项卡上,配置文档处理流程。
  5. 在 Results 选项卡上,测试技能,查看其在示例文档上的处理效果。
  6. 在 Publish 选项卡上,发布技能。
配置并发布文档技能后,即可在 ABBYY Vantage 的技能目录中使用。 在技能目录中,可以查看和管理技能,包括内置技能、只读技能和派生技能。