跳转到主要内容
在创建文档技能之后,请按以下步骤来完成技能的设置:
  1. 上传您计划用于训练和测试分类器的文档(每个文件中只能包含一页文档图像)。 要上传文档,请在 Skill Designer 中转到 Documents 选项卡,然后单击位于设计器中央、工具栏上或 Actions 窗格中的 Upload documents 按钮。 上传文档时,进度指示器会显示在 Skill Designer 顶部书签右侧。指示器的工具提示中包含仍需上传和处理的文档数量信息。 您可以通过单击文档名称左侧的图标来打开文档预览窗口。该窗口的默认宽度为浏览器窗口宽度的 35%。如有需要,您可以通过拖动预览窗口的左边框,将其宽度最多增大到浏览器窗口宽度的 80%。用户指定的宽度会一直保留,直到清除浏览器缓存。
  2. 在训练文档中,对所有需要提取数据的字段进行标注,并指定它们在图像上的位置。如有需要,您还可以添加验证规则和技能参数。 要在训练文档中标注字段,请在 Skill Designer 中转到 Editor 选项卡。您可以单击该选项卡名称,或在列表中选择一个或多个文档,然后在 Actions 窗格中单击 Label Fields and Create Business Rules 来完成此操作。
  3. 训练技能并分析其提取准确率。如有错误,请进行修正。 要开始训练技能,请在 Actions 窗格中单击 Train 按钮。训练完成后,Train 按钮旁会显示 Completed 您可以在 Actions 窗格中单击 Train 按钮下方的 Cancel 来停止技能训练。
  4. 重复步骤 1 到 3,直到您对结果满意为止。
  5. 将生产技能发布到技能目录(Skill Catalog),以便在生产环境中使用。
  6. 如有需要,您可以基于该技能进一步派生出其他技能。此类技能会继承其基础技能中的所有规则和字段。此外,在保留您已做出的所有更改的前提下,派生技能可以无缝更新到其基础技能的最新版本。

设置用于处理结构化文档的文档技能

ABBYY Vantage 提供了一种用于处理结构化文档的机器学习模式,即字段在每个文档实例中的位置都相同的文档。此类文档的示例包括问卷、申请表和纳税申报表。即使是具有多个变体的文档(例如针对不同年度的 IRS Form 1040,其字段集合和位置每年略有不同),此模式也可以处理。每个变体都代表一个单独的结构化文档,您必须为每个变体上传一份空白表单。 要设置用于处理结构化文档的技能,请按以下步骤操作:
  1. 创建一个新的文档技能,并为该技能启用 Fixed-form documents 开关。 固定表单开关
  2. 为文档的每个变体上传一份空白表单样本。为此,请在 Skill Designer 中转到 Blank Form 选项卡,然后单击设计器中央、工具栏或 Actions 面板中的 Upload Blank Form 按钮。如果您没有空白表单,可以上传一份已填写的表单并将其标记为空白表单。
注意: 一个技能最多可以处理同一表单的 10 个不同变体(例如针对不同年度的 IRS Form 1040 变体)。
  1. 标记需要提取数据的字段。
  2. 在字段设置中,为背景可能影响识别的字段启用 Eliminate field background 选项。
  3. Actions 面板中,单击 Train
  4. 单击 Test Set 选项卡并上传已填写的测试文档。确保每个文档上的所有字段都标记正确。如果某些字段位置与任何已上传的空白表单样本上的位置不匹配,请为该文档变体添加一份空白表单样本。
  5. Actions 面板中测试您的技能。操作完成后检查结果。如果您对结果不满意,请调整标记并再次训练该技能。
  6. 将您的技能发布到技能目录(Skill Catalog),以便供使用。
固定表单选项卡 用于处理结构化文档的技能在 Skill Designer 中显示的选项卡 在处理文档时,您可能会发现,这些文档更适合被视为半结构化文档,而不是结构化文档。在这种情况下:
  1. 在 Skill Designer 中单击技能名称右侧的图标。
  2. 关闭 Fixed-form documents 开关。
注意: 所有已标记的字段都会被保留。
  1. 重新训练您的技能。
如果您在 Advanced Designer 中编辑技能并将 Forms 活动与其他活动组合,则 Vantage 中的 Fixed-form documents 开关将被禁用,您将无法再在 Advanced Designer 之外编辑该技能。

使用表格和重复组

在处理结构化文档时,如果事先知道表格行或组实例的最大数量,并且表格或组的边界是固定的,Vantage 可以处理表格和重复组。您必须为表单所有可能出现的各个变体中所有可能出现的行添加标签。
注意: 在处理结果中只会显示包含数据的行。任何空行都会被忽略。
如果事先不知道组中的行数或实例数量,则必须使用其他 Vantage 技术,参见处理结构化文档
提示: 目前,仅支持处理具有文本值的表格。如果您的表格包含复选框或条形码列,请改用重复组。

设置识别语言

在处理文档时,Vantage 会从指定语言列表中选择一种处理语言。在设置新技能时,默认会选中以下四种语言:英语 (English)、法语 (French)、德语 (German) 和西班牙语 (Spanish)。 可以通过单击 Skill Designer 中技能名称右侧的图标来修改识别语言列表。设置对话框中显示的语言按字母顺序排序,已选中的语言显示在列表顶部。至少需要选择一种语言。 要关闭设置对话框,可以单击 Save 以保留更改,或单击 Cancel 放弃更改。
注意: 选定语言的数量可能会影响文档处理速度。如果您完全确定 Vantage 在您的文档中会遇到哪些语言,建议将选定的语言限制为这些特定语言。
即使技能已经训练完成,您仍然可以修改该技能的识别语言列表。要应用更改,请重新上传文档并重新训练该技能。

设置在线学习模式

在线学习适用于文档技能和分类技能。Online Learning 服务会将文档收集到训练集,并基于这些文档进一步训练技能。 在文档技能设置中,提供以下在线学习模式:
  • Collect and learn。默认选项。
  • Collect only。当在 Skill Designer 中需要收集文档而不进行训练时使用。
若要启用仅收集文档而不进行训练的模式,请在 Skill Designer 中单击技能名称右侧的图标,然后在设置对话框中选择 Collect only 模式。此模式允许您在重新训练技能之前,先审阅添加到训练集的文档。 仅收集模式

另请参阅