跳转到主要内容
ABBYY Vantage 提供用于处理结构化文档的机器学习模式,例如字段在每个文档实例中位置一致的文档。此类文档包括问卷、申请表和报税表。一些结构化文档可能存在多个变体,其字段及其位置会有细微差异。

示例图像

IRS Form 1040 - 2020 IRS Form 1040 - 2019 2020 年和 2019 年的两种 IRS Form 1040 版本。

为结构化文档创建 Skill

您可以在 Vantage 和 Advanced Designer 中创建用于处理结构化文档的 Skill。但要编辑此类 Skill,需使用 Advanced Designer。 在 Vantage 中,您可以通过为该 Skill 启用 Fixed-form documents 开关来创建用于处理结构化文档的 Skill。您还需要上传并标注一些空白表单。
注意: 关于为具有多个变体的结构化文档创建处理 Skill 的详细步骤,请参见 Setting up a Document skill for processing structured documents
您在 Vantage 中创建的 Skill 会出现在 Advanced Designer 中。其文档处理流程将包含专为处理结构化文档设计的 Forms 活动。
注意: 如果您未启用 Fixed-form documents 开关,则该 Skill 的文档处理流程将仅包含 Fast Learning 活动。
当您需要将结构化文档处理与其他 Vantage 技术结合时,可以在 Advanced Designer 中创建并编辑用于结构化文档的 Skill。在这种情况下,Forms 活动需要与在 Advanced Designer 中创建并配置的其他活动配合使用。
注意: 如果文档处理流程包含与其他活动配合的一个 Forms 活动,或包含多个 Forms 活动,则您在 Vantage 中的编辑选项将仅限于更改该 Skill 的属性,且无法进行训练。若需更高级的编辑,请使用 Advanced Designer。

从包含非结构化元素或混合结构的表单中提取数据

结构化文档有时可能包含非结构化元素,例如可放置在文档任意位置的条形码或印章,这些也需要检测。另一种情况是混合文档:部分为结构化内容,另一部分为可变长度的表格(例如行数不固定的表格)。要处理此类文档,请先使用 Forms 活动,然后再使用用于处理非结构化元素的活动。在以下步骤中,我们使用 Forms 活动处理结构化字段,并使用 Extraction Rules 活动检测条形码。

创建 Document Skill 的步骤

  1. 打开 Advanced Designer。在起始页,点击 Create Document Skill 创建新的 Skill。
  2. 转到 Activities 选项卡,将一个 Forms 活动添加到文档处理流程。
  3. 点击 Activity Editor。在 Blank Form 选项卡,为文档的每种变体各上传一份空白表单样本(不建议上传超过 10 种不同变体)。为需要提取数据的字段进行标注。有关标注指南,请参见 Labeling documents。
  4. 点击 Train Activity
  5. 点击 Test Set 选项卡,上传已完成的测试文档。确保每份文档上的所有字段均已正确标注。点击 Test Activity。操作完成后查看结果。
  6. 返回 Activities 选项卡,在文档处理流程中添加一个 Extraction Rules 活动。
  7. 点击 Activity Editor,并配置 Extraction Rules 活动。
  8. 点击 Test Skill Using Selected Documents。操作完成后查看结果。如果对结果满意,请发布你的 Skill;否则,请调整标注,然后重新训练并测试该活动。

处理表格和可重复组

在处理结构化文档时,若事先已知表格行或组实例的最大数量,且表格或组的边界固定,Vantage 可以处理表格和可重复组。您需要为表单所有版本中可能出现的全部行进行标注。
注意: 处理结果中仅显示包含数据的行,空行将被忽略。
如果无法预先确定组中的行数或实例数量,则必须使用其他 Vantage 技术。
注意: 目前仅支持包含文本值的表格。如果表格中有复选框或条形码列,请改用可重复组。

在同一流程中从表单和非结构化文档提取数据

有时信息会通过表单和非结构化文档两种方式收集。例如,问卷的回答可能以印刷表单提交,或以自由格式撰写的非结构化文档提交。要处理此类混合文档,请组合使用 Forms 活动(处理表单)与 Fast Learning 或 Extraction Rules 活动(处理非结构化文档)。随后需应用 Classify 活动,将表单与非结构化文档区分开来。

创建 Document Skill 的步骤

  1. 打开 Advanced Designer。在起始页,点击 Create Document Skill 创建新的 Skill。
  2. 转到 Activities 选项卡,将 Forms 活动添加到文档处理流程中。
  3. 点击 Activity Editor。在 Blank Form 选项卡,上传一份空白表单示例,并为需要提取数据的字段进行标注。有关标注指南,请参见 Labeling documents。
  4. 点击 Train Activity
  5. 点击 Test Set 选项卡并上传已填写的测试文档。请确保每份文档上的所有字段均已正确标注。点击 Test Activity。操作完成后,查看结果。
  6. 转到 Activities 选项卡,并将 Fast Learning 活动添加到文档处理流程中。
  7. 打开 Activity Editor 配置并训练该活动。
  8. 转到 Activities 选项卡,并在文档处理流程的开头添加 Classify 活动。
  9. 点击 Activity Editor 并设置 Classify 活动。您需要为每种文档变体创建一个类,将类分配给文档,并训练该活动。
  10. 返回 Activities 选项卡,添加一个 IF 活动以为文档处理流程设置条件分支。将此活动连接到 Forms 和 Fast Learning 活动。
  11. 点击 Test Skill Using Selected Documents。操作完成后,查看结果。如果您对结果满意,请发布该 Skill。否则,请调整标注并再次训练该活动。