跳转到主要内容
Document skill 使您能够从单一类型的结构化和半结构化文档中提取字段值。相同类型的文档具有完全相同的一组字段和校验规则,以及相同的结构;例如,发票、协议和装运清单是三种文档类型。 结构化文档是指在每个文档实例中,字段的位置都相同的表单。结构化文档的示例包括问卷、申请表和纳税申报表。
提示:当您需要将结构化文档的处理与其他 Vantage 技术相结合时,也可以在 Advanced Designer 中创建和编辑用于结构化文档的 Skill。
半结构化文档具有特定的一组字段,但其标注、数量和位置在同类型的不同文档之间会有所变化。半结构化文档的一个典型示例是由不同公司开具的发票,其明细行的数量和格式各不相同。每张发票都会包含发票号码和总计金额,但这些信息的具体位置会因发票而异。 要开始训练您的 Document skill,请先在一份文档上标注字段。随着您训练该 Skill,程序将开始自动建议字段位置,以加速字段标注过程。
注意:目前,在单个处理事务中,Document skill 一次只能处理一个文件。如果您需要处理多个文件,请使用 Process 技能的 Extract 活动。

文档类型变体

同一类型的文档几乎总是具有相同的字段、校验规则和结构。同一文档类型的变体可能会略有不同,例如取决于文档签发的年份。 同一类型的文档可以由一个使用该文档类型不同变体训练的 Document skill 处理。Vantage 和 Advanced Designer 可以在同一文档类型内处理任意数量的变体:
  • 对于数百个变体,在 Vantage 中通过 Online Learning 训练的 Skill 将几乎可以完美地提取数据。
  • 对于数千个变体,通过 Deep Learning 活动训练的 Skill 将能够根据文档类型的复杂度,以约 80%–90% 的准确率提取数据。
  • 对于某一文档类型中最关键的变体,通过 Fast Learning 和/或 Extraction Rules 活动训练的 Skill 将可确保从复杂文档中准确提取数据。
  • 对于结构化文档(在完全相同的位置始终包含相同类型的信息),我们建议使用不超过 10 个变体。如果固定表单有许多变体,建议将它们都视为不同的文档类型。
在训练和测试 Skill 时,我们建议如下:
  • 训练 Skill 时,使用一个具有代表性的文档集,其中每个变体至少包含 2–3 份文档。如果变体很多且该集合未包含每个变体至少一份文档,则可以使用 Deep Learning 活动。它能够理解图像模式、文档的空间结构、field 内容及其周围标签,并可以处理未用于训练的变体。
  • 测试 Skill 时,使用与生产环境中文档实际流转相似的文档分布:训练集中某一特定变体所占比例应能代表该变体在您的文档流中出现的频率。这样可以确保准确率评估有效。为此,请使用来自生产实际文档流的随机样本来测试 Skill。
  • 有一个变体样本胜于没有样本。