提示: 当您需要将结构化文档的处理与其他 Vantage 技术相结合时,您也可以在 Advanced Designer 中为结构化文档创建和编辑技能。半结构化文档具有特定的一组字段,但其标注方式、数量和位置在同一类型的不同文档之间会有所不同。半结构化文档的一个典型示例是由不同公司开具的发票,其明细项的数量和格式各不相同。每张发票都会印有发票号码和合计金额,但这些信息的具体位置在不同发票之间并不固定。 要开始训练您的文档技能,请先在一份文档上标注字段。随着您不断训练该技能,程序将开始自动建议字段位置,以简化字段标注过程。
注意: 当前,在单个事务中,文档技能一次只能处理一个文件。如果您需要处理多个文件,请使用流程技能的 Extract 活动。
文档类型变体
- 对于数百种变体,使用 Vantage 中的 Online Learning 训练的技能几乎可以完美地提取数据。
- 对于数千种变体,使用 Deep Learning 活动训练的技能可以以大约 80% 到 90% 的准确率提取数据,具体取决于文档类型的复杂度。
- 对于某个文档类型中最重要的变体,使用 Fast Learning 和/或 Extraction Rules 活动训练的技能可以确保从复杂文档中准确提取数据。
- 对于结构化文档(在完全相同的位置始终包含相同类型的信息),建议最多使用 10 种变体。如果某个固定表单具有大量变体,建议将它们都视为不同的文档类型。
- 在训练技能时,使用一个具有代表性的文档集,其中每个变体至少包含 2–3 份文档。如果变体很多且该文档集中并未包含每一种变体的至少一份文档,则可以使用 Deep Learning 活动。它能够理解图像模式、文档的空间结构、字段内容以及周围标签,并可以处理未用于训练的变体。
- 在测试技能时,使用与生产环境中文档实际流转情况类似的文档分布:训练集中某一特定变体文档所占的百分比应能代表该变体在实际文档流中出现的频率。这将确保准确率评估是有效的。为此,需要使用来自生产环境中实际文档流的随机文档样本来测试技能。
- 有一个变体样本总比没有好。
