跳转到主要内容
创建 Document skill 之后,按照以下步骤设置该 Skill:
  1. 上传计划用于训练和测试分类器的文档(每个文件必须只包含一个文档图像)。 要上传文档,请在 Skill Designer 中转到 Documents 选项卡,然后单击位于设计器中央、工具栏上或 Actions 窗格中的 Upload documents 按钮。 上传过程中,进度指示器会显示在 Skill Designer 顶部、书签右侧。指示器的工具提示会显示仍需上传和处理的文档数量。 你可以单击位于文档名称左侧的图标打开文档预览窗口。该窗口的默认宽度为浏览器窗口宽度的 35%。如有需要,你可以拖动预览窗口的左边框,将其宽度扩大至最多占浏览器窗口宽度的 80%。用户自定义的宽度会一直保留,直至清除浏览器缓存。
  2. 在训练文档中,标注需要提取数据的所有字段,并指定它们在图像上的位置。必要时,还可以添加校验规则和 Skill 参数。 要在训练文档中标注字段,请转到 Skill Designer 的 Editor 选项卡。你可以单击选项卡名称进入,或在列表中选择一个或多个文档,然后在 Actions 窗格中单击 Label Fields and Create Business Rules
  3. 训练你的 Skill 并分析其提取准确度。如有错误,请进行修正。 要开始训练 Skill,请在 Actions 窗格中单击 Train 按钮。训练完成后,Train 按钮旁将显示 Completed 你可以在 Actions 窗格中单击 Train 按钮下方的 Cancel 来停止 Skill 训练。
  4. 重复步骤 1 至 3,直至对结果满意。
  5. 将生产用的 Skill 发布到 Skill Catalog 以供使用。
  6. 如有需要,可以从你的 Skill 派生出其他 Skills。派生的 Skills 会继承其基础 Skill 的所有规则和字段,并且在保留你所做全部更改的同时,可无缝更新至其基础 Skill 的最新版本。

为处理结构化文档设置 Document skill

ABBYY Vantage 提供用于处理结构化文档的机器学习模式,即每个文档实例中字段位置保持一致的文档。此类文档包括问卷、申请表和报税表。该模式甚至可以处理具有多个版本的文档,例如不同年份的 IRS Form 1040,其字段集合和位置每年略有差异。每个此类版本都视为单独的结构化文档,您必须为每个版本上传一份空白表单。 要为处理结构化文档设置一个 Skill,请执行以下步骤:
  1. 创建一个新的 Document skill,并为该 Skill 打开固定表单文档开关。 Fixed Forms Toggle
  2. 为文档的每个版本上传一份空白表单示例。为此,请在 Skill Designer 中转到空白表单选项卡,然后单击设计器中央、工具栏或操作窗格中的上传空白表单按钮。如果您没有空白表单,可以上传一份已填写的表单并将其标记为空白表单。
注意: 一个 Skill 最多可处理同一种表单的 10 个不同版本(例如,不同年份的 IRS Form 1040 版本)。
  1. 标注需要提取数据的字段。
  2. 在字段设置中,对背景可能影响识别的字段启用去除字段背景选项。
  3. 操作窗格中,单击训练
  4. 单击测试集选项卡并上传已填写的测试文档。确保每份文档上的所有字段都已正确标注。若某些字段位置与任何已上传的空白表单示例不匹配,请为该文档版本补充相应的空白表单示例。
  5. 操作窗格中测试您的 Skill。操作完成后查看结果。如果对结果不满意,请调整标注并重新训练。
  6. 将您的 Skill 发布到 Skill Catalog 以供使用。
Fixed Form Tabs 在 Skill Designer 中为处理结构化文档的 Skill 显示的选项卡 在处理文档时,您可能会发现这些文档更适合视为半结构化文档而非结构化文档。在这种情况下:
  1. 在 Skill Designer 中单击 Skill 名称右侧的图标。
  2. 关闭固定表单文档开关。
注意: 所有已标注的字段都会被保留。
  1. 重新训练您的 Skill。
如果您在 Advanced Designer 中编辑 Skill,并将 Forms 活动与其他活动组合,则 Vantage 中的固定表单文档开关将被禁用,且您将无法在 Advanced Designer 之外编辑该 Skill。

处理表格和可重复组

在处理结构化文档时,如果事先知道表格行或组实例的最大数量,且表格或组的边界固定,Vantage 可以处理表格和可重复组。您必须为表单所有变体中可能出现的所有行进行标注。
注意: 处理结果中仅显示包含数据的行。空行将被忽略。
如果事先不知道组中的行数或实例数量,则必须使用其他 Vantage 技术,请参见处理结构化文档
提示: 目前仅支持包含文本值的表格。如果表格包含复选框或条形码列,请改用可重复组。

设置识别语言

处理文档时,Vantage 会从指定语言列表中选择一种处理语言。设置新 Skill 时,默认会选择以下四种语言:English、French、German 和 Spanish。 可在 Skill Designer 中点击 Skill 名称右侧的 icon 来修改识别语言列表。设置对话框中的语言按字母顺序排列,已选择的语言会显示在列表顶部。至少需要选择一种语言。 要关闭设置对话框,点击 Save 保存更改,或点击 Cancel 放弃更改。
注意: 选择的语言数量可能会影响文档处理速度。如果您明确知道 Vantage 在您的文档中会遇到哪些语言,建议将所选语言限制为这些特定语言。
即使 Skill 已经过训练,您仍可以修改其识别语言列表。要应用更改,请重新上传 documents 并重新训练该 Skill。

设置在线学习模式

在线学习适用于 Document skill 和 分类 Skill。Online Learning 服务会将文档收集到训练集,然后基于这些文档进一步训练该 Skill。 在 Document Skill 的设置中,提供以下在线学习模式:
  • 收集并学习(默认)。
  • 仅收集:当需要在不进行训练的情况下先行收集文档时使用。
如需启用仅收集文档而不训练,请在 Skill Designer 中单击 Skill 名称右侧的 icon,并在设置对话框中选择 仅收集 模式。此模式允许您在重新训练该 Skill 之前先审阅添加到训练集的文档。 仅收集模式

另请参阅