跳转到主要内容ABBYY Vantage 提供用于处理结构化文档的机器学习模式,例如字段在每个文档实例中位置一致的文档。此类文档包括问卷、申请表和报税表。一些结构化文档可能存在多个变体,其字段及其位置会有细微差异。
2020 年和 2019 年的两种 IRS Form 1040 版本。
您可以在 Vantage 和 Advanced Designer 中创建用于处理结构化文档的 Skill。但要编辑此类 Skill,需使用 Advanced Designer。
在 Vantage 中,您可以通过为该 Skill 启用 Fixed-form documents 开关来创建用于处理结构化文档的 Skill。您还需要上传并标注一些空白表单。
注意: 关于为具有多个变体的结构化文档创建处理 Skill 的详细步骤,请参见 Setting up a Document skill for processing structured documents。
您在 Vantage 中创建的 Skill 会出现在 Advanced Designer 中。其文档处理流程将包含专为处理结构化文档设计的 Forms 活动。
注意: 如果您未启用 Fixed-form documents 开关,则该 Skill 的文档处理流程将仅包含 Fast Learning 活动。
当您需要将结构化文档处理与其他 Vantage 技术结合时,可以在 Advanced Designer 中创建并编辑用于结构化文档的 Skill。在这种情况下,Forms 活动需要与在 Advanced Designer 中创建并配置的其他活动配合使用。
注意: 如果文档处理流程包含与其他活动配合的一个 Forms 活动,或包含多个 Forms 活动,则您在 Vantage 中的编辑选项将仅限于更改该 Skill 的属性,且无法进行训练。若需更高级的编辑,请使用 Advanced Designer。
结构化文档有时可能包含非结构化元素,例如可放置在文档任意位置的条形码或印章,这些也需要检测。另一种情况是混合文档:部分为结构化内容,另一部分为可变长度的表格(例如行数不固定的表格)。要处理此类文档,请先使用 Forms 活动,然后再使用用于处理非结构化元素的活动。在以下步骤中,我们使用 Forms 活动处理结构化字段,并使用 Extraction Rules 活动检测条形码。
- 打开 Advanced Designer。在起始页,点击 Create Document Skill 创建新的 Skill。
- 转到 Activities 选项卡,将一个 Forms 活动添加到文档处理流程。
- 点击 Activity Editor。在 Blank Form 选项卡,为文档的每种变体各上传一份空白表单样本(不建议上传超过 10 种不同变体)。为需要提取数据的字段进行标注。有关标注指南,请参见 Labeling documents。
- 点击 Train Activity。
- 点击 Test Set 选项卡,上传已完成的测试文档。确保每份文档上的所有字段均已正确标注。点击 Test Activity。操作完成后查看结果。
- 返回 Activities 选项卡,在文档处理流程中添加一个 Extraction Rules 活动。
- 点击 Activity Editor,并配置 Extraction Rules 活动。
- 点击 Test Skill Using Selected Documents。操作完成后查看结果。如果对结果满意,请发布你的 Skill;否则,请调整标注,然后重新训练并测试该活动。
在处理结构化文档时,若事先已知表格行或组实例的最大数量,且表格或组的边界固定,Vantage 可以处理表格和可重复组。您需要为表单所有版本中可能出现的全部行进行标注。
注意: 处理结果中仅显示包含数据的行,空行将被忽略。
如果无法预先确定组中的行数或实例数量,则必须使用其他 Vantage 技术。
注意: 目前仅支持包含文本值的表格。如果表格中有复选框或条形码列,请改用可重复组。
有时信息会通过表单和非结构化文档两种方式收集。例如,问卷的回答可能以印刷表单提交,或以自由格式撰写的非结构化文档提交。要处理此类混合文档,请组合使用 Forms 活动(处理表单)与 Fast Learning 或 Extraction Rules 活动(处理非结构化文档)。随后需应用 Classify 活动,将表单与非结构化文档区分开来。
- 打开 Advanced Designer。在起始页,点击 Create Document Skill 创建新的 Skill。
- 转到 Activities 选项卡,将 Forms 活动添加到文档处理流程中。
- 点击 Activity Editor。在 Blank Form 选项卡,上传一份空白表单示例,并为需要提取数据的字段进行标注。有关标注指南,请参见 Labeling documents。
- 点击 Train Activity。
- 点击 Test Set 选项卡并上传已填写的测试文档。请确保每份文档上的所有字段均已正确标注。点击 Test Activity。操作完成后,查看结果。
- 转到 Activities 选项卡,并将 Fast Learning 活动添加到文档处理流程中。
- 打开 Activity Editor 配置并训练该活动。
- 转到 Activities 选项卡,并在文档处理流程的开头添加 Classify 活动。
- 点击 Activity Editor 并设置 Classify 活动。您需要为每种文档变体创建一个类,将类分配给文档,并训练该活动。
- 返回 Activities 选项卡,添加一个 IF 活动以为文档处理流程设置条件分支。将此活动连接到 Forms 和 Fast Learning 活动。
- 点击 Test Skill Using Selected Documents。操作完成后,查看结果。如果您对结果满意,请发布该 Skill。否则,请调整标注并再次训练该活动。