跳转到主要内容创建 Document skill 之后,按照以下步骤设置该 Skill:
-
上传计划用于训练和测试分类器的文档(每个文件必须只包含一个文档图像)。
要上传文档,请在 Skill Designer 中转到 Documents 选项卡,然后单击位于设计器中央、工具栏上或 Actions 窗格中的 Upload documents 按钮。
上传过程中,进度指示器会显示在 Skill Designer 顶部、书签右侧。指示器的工具提示会显示仍需上传和处理的文档数量。
你可以单击位于文档名称左侧的图标打开文档预览窗口。该窗口的默认宽度为浏览器窗口宽度的 35%。如有需要,你可以拖动预览窗口的左边框,将其宽度扩大至最多占浏览器窗口宽度的 80%。用户自定义的宽度会一直保留,直至清除浏览器缓存。
-
在训练文档中,标注需要提取数据的所有字段,并指定它们在图像上的位置。必要时,还可以添加校验规则和 Skill 参数。
要在训练文档中标注字段,请转到 Skill Designer 的 Editor 选项卡。你可以单击选项卡名称进入,或在列表中选择一个或多个文档,然后在 Actions 窗格中单击 Label Fields and Create Business Rules。
-
训练你的 Skill 并分析其提取准确度。如有错误,请进行修正。
要开始训练 Skill,请在 Actions 窗格中单击 Train 按钮。训练完成后,Train 按钮旁将显示 Completed。
你可以在 Actions 窗格中单击 Train 按钮下方的 Cancel 来停止 Skill 训练。
-
重复步骤 1 至 3,直至对结果满意。
-
将生产用的 Skill 发布到 Skill Catalog 以供使用。
-
如有需要,可以从你的 Skill 派生出其他 Skills。派生的 Skills 会继承其基础 Skill 的所有规则和字段,并且在保留你所做全部更改的同时,可无缝更新至其基础 Skill 的最新版本。
为处理结构化文档设置 Document skill
ABBYY Vantage 提供用于处理结构化文档的机器学习模式,即每个文档实例中字段位置保持一致的文档。此类文档包括问卷、申请表和报税表。该模式甚至可以处理具有多个版本的文档,例如不同年份的 IRS Form 1040,其字段集合和位置每年略有差异。每个此类版本都视为单独的结构化文档,您必须为每个版本上传一份空白表单。
要为处理结构化文档设置一个 Skill,请执行以下步骤:
-
创建一个新的 Document skill,并为该 Skill 打开固定表单文档开关。
-
为文档的每个版本上传一份空白表单示例。为此,请在 Skill Designer 中转到空白表单选项卡,然后单击设计器中央、工具栏或操作窗格中的上传空白表单按钮。如果您没有空白表单,可以上传一份已填写的表单并将其标记为空白表单。
注意: 一个 Skill 最多可处理同一种表单的 10 个不同版本(例如,不同年份的 IRS Form 1040 版本)。
- 标注需要提取数据的字段。
- 在字段设置中,对背景可能影响识别的字段启用去除字段背景选项。
- 在操作窗格中,单击训练。
- 单击测试集选项卡并上传已填写的测试文档。确保每份文档上的所有字段都已正确标注。若某些字段位置与任何已上传的空白表单示例不匹配,请为该文档版本补充相应的空白表单示例。
- 在操作窗格中测试您的 Skill。操作完成后查看结果。如果对结果不满意,请调整标注并重新训练。
- 将您的 Skill 发布到 Skill Catalog 以供使用。
在 Skill Designer 中为处理结构化文档的 Skill 显示的选项卡
在处理文档时,您可能会发现这些文档更适合视为半结构化文档而非结构化文档。在这种情况下:
- 在 Skill Designer 中单击 Skill 名称右侧的图标。
- 关闭固定表单文档开关。
注意: 所有已标注的字段都会被保留。
- 重新训练您的 Skill。
如果您在 Advanced Designer 中编辑 Skill,并将 Forms 活动与其他活动组合,则 Vantage 中的固定表单文档开关将被禁用,且您将无法在 Advanced Designer 之外编辑该 Skill。
在处理结构化文档时,如果事先知道表格行或组实例的最大数量,且表格或组的边界固定,Vantage 可以处理表格和可重复组。您必须为表单所有变体中可能出现的所有行进行标注。
注意: 处理结果中仅显示包含数据的行。空行将被忽略。
如果事先不知道组中的行数或实例数量,则必须使用其他 Vantage 技术,请参见处理结构化文档。
提示: 目前仅支持包含文本值的表格。如果表格包含复选框或条形码列,请改用可重复组。
处理文档时,Vantage 会从指定语言列表中选择一种处理语言。设置新 Skill 时,默认会选择以下四种语言:English、French、German 和 Spanish。
可在 Skill Designer 中点击 Skill 名称右侧的 icon 来修改识别语言列表。设置对话框中的语言按字母顺序排列,已选择的语言会显示在列表顶部。至少需要选择一种语言。
要关闭设置对话框,点击 Save 保存更改,或点击 Cancel 放弃更改。
注意: 选择的语言数量可能会影响文档处理速度。如果您明确知道 Vantage 在您的文档中会遇到哪些语言,建议将所选语言限制为这些特定语言。
即使 Skill 已经过训练,您仍可以修改其识别语言列表。要应用更改,请重新上传 documents 并重新训练该 Skill。
在线学习适用于 Document skill 和 分类 Skill。Online Learning 服务会将文档收集到训练集,然后基于这些文档进一步训练该 Skill。
在 Document Skill 的设置中,提供以下在线学习模式:
- 收集并学习(默认)。
- 仅收集:当需要在不进行训练的情况下先行收集文档时使用。
如需启用仅收集文档而不训练,请在 Skill Designer 中单击 Skill 名称右侧的 icon,并在设置对话框中选择 仅收集 模式。此模式允许您在重新训练该 Skill 之前先审阅添加到训练集的文档。