跳转到主要内容
文档技能可让您从单一文档类型的结构化和半结构化文档中提取字段值。相同类型的文档具有完全相同的一组字段和验证规则,以及相同的结构。例如,发票、协议和装运清单就是三种不同类型的文档。 结构化文档是指在每个文档实例中,字段位置都相同的表单。结构化文档的示例包括问卷、申请表和纳税申报表。
提示: 当您需要将结构化文档的处理与其他 Vantage 技术相结合时,您也可以在 Advanced Designer 中为结构化文档创建和编辑技能。
半结构化文档具有特定的一组字段,但其标注方式、数量和位置在同一类型的不同文档之间会有所不同。半结构化文档的一个典型示例是由不同公司开具的发票,其明细项的数量和格式各不相同。每张发票都会印有发票号码和合计金额,但这些信息的具体位置在不同发票之间并不固定。 要开始训练您的文档技能,请先在一份文档上标注字段。随着您不断训练该技能,程序将开始自动建议字段位置,以简化字段标注过程。
注意: 当前,在单个事务中,文档技能一次只能处理一个文件。如果您需要处理多个文件,请使用流程技能的 Extract 活动。

文档类型变体

同一类型的文档几乎总是具有相同的一组字段、验证规则和结构。同一文档类型的各个变体之间可能会略有不同,例如,这可能取决于文档签发的年度。 同一类型的文档可以由一个文档技能来处理,该技能是基于该文档类型的不同变体训练得到的。Vantage 和 Advanced Designer 可以在同一文档类型内处理任意数量的变体:
  • 对于数百种变体,使用 Vantage 中的 Online Learning 训练的技能几乎可以完美地提取数据。
  • 对于数千种变体,使用 Deep Learning 活动训练的技能可以以大约 80% 到 90% 的准确率提取数据,具体取决于文档类型的复杂度。
  • 对于某个文档类型中最重要的变体,使用 Fast Learning 和/或 Extraction Rules 活动训练的技能可以确保从复杂文档中准确提取数据。
  • 对于结构化文档(在完全相同的位置始终包含相同类型的信息),建议最多使用 10 种变体。如果某个固定表单具有大量变体,建议将它们都视为不同的文档类型。
在训练和测试技能时,我们建议如下:
  • 在训练技能时,使用一个具有代表性的文档集,其中每个变体至少包含 2–3 份文档。如果变体很多且该文档集中并未包含每一种变体的至少一份文档,则可以使用 Deep Learning 活动。它能够理解图像模式、文档的空间结构、字段内容以及周围标签,并可以处理未用于训练的变体。
  • 在测试技能时,使用与生产环境中文档实际流转情况类似的文档分布:训练集中某一特定变体文档所占的百分比应能代表该变体在实际文档流中出现的频率。这将确保准确率评估是有效的。为此,需要使用来自生产环境中实际文档流的随机文档样本来测试技能。
  • 有一个变体样本总比没有好。