跳转到主要内容
ABBYY Vantage 提供了一种用于处理结构化文档的机器学习模式,例如字段在每份文档中位置都相同的文档。此类文档包括问卷、申请表和报税表等。一些结构化文档可能有多个变体,其字段及其位置会存在细微差异。

示例图像

IRS Form 1040 - 2020 IRS Form 1040 - 2019 IRS Form 1040 的 2020 年和 2019 年两个版本示例。

为结构化文档创建技能

您可以在 Vantage 和 Advanced Designer 中创建用于处理结构化文档的技能。不过,要编辑此类技能,您需要使用 Advanced Designer。 在 Vantage 中,您可以通过为该技能启用 Fixed-form documents 开关来创建用于处理结构化文档的技能。您还需要上传并标注一些空白表单。
注意: 有关为具有多个变体的结构化文档创建处理技能的详细说明,请参阅为处理结构化文档设置文档技能
您在 Vantage 中创建的技能会出现在 Advanced Designer 中。其文档处理流程将包含一个专门用于处理结构化文档的 Forms 活动。
注意: 如果您没有启用 Fixed-form documents 开关,则该技能的文档处理流程将仅包含 Fast Learning 活动。
在 Advanced Designer 中,当您需要将结构化文档处理与其他 Vantage 技术相结合时,可以创建和编辑用于结构化文档的技能。在这种情况下,Forms 活动需要与在 Advanced Designer 中创建并配置的其他活动一起使用。
注意: 如果您的文档处理流程包含一个与其他活动配合使用的 Forms 活动,或包含多个 Forms 活动,那么您在 Vantage 中的编辑选项将仅限于更改技能属性,而且无法进行训练。对于更高级的编辑,请使用 Advanced Designer。

从包含非结构化元素或混合结构的表单中提取数据

结构化文档有时可能还包含非结构化元素,例如可以出现在文档任意位置的条码或印章,这些元素也需要被检测出来。另一个例子是混合结构的文档:其中一部分是结构化的,而另一部分是可变长度的表格(例如具有可变行数的表格)。要处理此类文档,请先使用一个 Forms 活动,然后再使用一个处理非结构化元素的活动。在以下步骤中,我们使用一个 Forms 活动来处理结构化字段,使用一个 Extraction Rules 活动来检测条码。

创建文档技能的步骤

  1. 打开 Advanced Designer。在开始页点击 Create Document Skill 创建一个新的技能。
  2. 转到 Activities 选项卡,在文档处理流程中添加一个 Forms 活动。
  3. 点击 Activity Editor。在 Blank Form 选项卡上,为文档的每个变体上传一个空白表单样本(建议不要上传超过 10 种不同变体)。对需要提取数据的字段进行标注。有关标注指南,请参阅 Labeling documents。
  4. 点击 Train Activity
  5. 点击 Test Set 选项卡并上传已填写的测试文档。确保每个文档上的所有字段都已正确标注。点击 Test Activity。操作完成后,查看结果。
  6. 返回 Activities 选项卡,在文档处理流程中添加一个 Extraction Rules 活动。
  7. 点击 Activity Editor 并配置 Extraction Rules 活动。
  8. 点击 Test Skill Using Selected Documents。操作完成后,查看结果。如果对结果满意,请发布您的技能。否则,请调整标注,然后再次训练并测试该活动。

处理表格和重复组

在处理结构化文档时,如果预先知道表格行或组实例的最大数量,并且表格或组的边界是固定的,Vantage 可以处理表格和重复组。您需要在表单的所有版本中标注所有可能出现的行。
注意: 仅包含数据的行会显示在处理结果中。任何空行都会被忽略。
如果事先不知道组中的行数或实例数量,则必须使用 Vantage 的其他技术。
注意: 当前只能处理包含文本值的表格。如果您的表格包含带复选框或条形码的列,请改用重复组。

在单一流程中从表单和非结构化文档中提取数据

有时信息会通过表单和非结构化文档两种方式收集。例如,问卷的答案可能既来自打印表单,也可能以自由格式书写的非结构化文档形式收到。要处理这种混合类型的文档,请组合使用 Forms 活动(用于处理表单)以及 Fast Learning 或 Extraction Rules 活动(用于处理非结构化文档)。接着需要使用 Classify 活动,将表单与非结构化文档区分开来。

创建文档技能的步骤

  1. 打开 Advanced Designer。在起始页面点击 Create Document Skill,创建一个新的文档技能。
  2. 转到 Activities 选项卡,并在文档处理流程中添加一个 Forms 活动。
  3. 点击 Activity Editor。在 Blank Form 选项卡中,上传一个空白表单示例,并对需要提取数据的字段进行标注。有关标注的指南,请参见“Labeling documents”。
  4. 点击 Train Activity
  5. 点击 Test Set 选项卡并上传已填写完成的测试文档。确保每个文档上的所有字段均已正确标注。点击 Test Activity。操作完成后,查看结果。
  6. 转到 Activities 选项卡,并在文档处理流程中添加一个 Fast Learning 活动。
  7. 打开 Activity Editor 来配置并训练该活动。
  8. 转到 Activities 选项卡,并在文档处理流程的开头添加一个 Classify 活动。
  9. 点击 Activity Editor 并设置 Classify 活动。需要为每种文档变体创建一个类,将类分配给文档,并训练该活动。
  10. 返回 Activities 选项卡,并添加一个 IF 活动,以便为文档处理流程设置条件分支。将此活动连接到 Forms 和 Fast Learning 活动。
  11. 点击 Test Skill Using Selected Documents。操作完成后,查看结果。如果对结果满意,请发布该技能;否则,请调整标注并重新训练该活动。