- 上传您计划用于训练和测试分类器的文档(每个文件中只能包含一页文档图像)。 要上传文档,请在 Skill Designer 中转到 Documents 选项卡,然后单击位于设计器中央、工具栏上或 Actions 窗格中的 Upload documents 按钮。 上传文档时,进度指示器会显示在 Skill Designer 顶部书签右侧。指示器的工具提示中包含仍需上传和处理的文档数量信息。 您可以通过单击文档名称左侧的图标来打开文档预览窗口。该窗口的默认宽度为浏览器窗口宽度的 35%。如有需要,您可以通过拖动预览窗口的左边框,将其宽度最多增大到浏览器窗口宽度的 80%。用户指定的宽度会一直保留,直到清除浏览器缓存。
- 在训练文档中,对所有需要提取数据的字段进行标注,并指定它们在图像上的位置。如有需要,您还可以添加验证规则和技能参数。 要在训练文档中标注字段,请在 Skill Designer 中转到 Editor 选项卡。您可以单击该选项卡名称,或在列表中选择一个或多个文档,然后在 Actions 窗格中单击 Label Fields and Create Business Rules 来完成此操作。
- 训练技能并分析其提取准确率。如有错误,请进行修正。 要开始训练技能,请在 Actions 窗格中单击 Train 按钮。训练完成后,Train 按钮旁会显示 Completed。 您可以在 Actions 窗格中单击 Train 按钮下方的 Cancel 来停止技能训练。
- 重复步骤 1 到 3,直到您对结果满意为止。
- 将生产技能发布到技能目录(Skill Catalog),以便在生产环境中使用。
- 如有需要,您可以基于该技能进一步派生出其他技能。此类技能会继承其基础技能中的所有规则和字段。此外,在保留您已做出的所有更改的前提下,派生技能可以无缝更新到其基础技能的最新版本。
设置用于处理结构化文档的文档技能
-
创建一个新的文档技能,并为该技能启用 Fixed-form documents 开关。

- 为文档的每个变体上传一份空白表单样本。为此,请在 Skill Designer 中转到 Blank Form 选项卡,然后单击设计器中央、工具栏或 Actions 面板中的 Upload Blank Form 按钮。如果您没有空白表单,可以上传一份已填写的表单并将其标记为空白表单。
注意: 一个技能最多可以处理同一表单的 10 个不同变体(例如针对不同年度的 IRS Form 1040 变体)。
- 标记需要提取数据的字段。
- 在字段设置中,为背景可能影响识别的字段启用 Eliminate field background 选项。
- 在 Actions 面板中,单击 Train。
- 单击 Test Set 选项卡并上传已填写的测试文档。确保每个文档上的所有字段都标记正确。如果某些字段位置与任何已上传的空白表单样本上的位置不匹配,请为该文档变体添加一份空白表单样本。
- 在 Actions 面板中测试您的技能。操作完成后检查结果。如果您对结果不满意,请调整标记并再次训练该技能。
- 将您的技能发布到技能目录(Skill Catalog),以便供使用。
用于处理结构化文档的技能在 Skill Designer 中显示的选项卡
在处理文档时,您可能会发现,这些文档更适合被视为半结构化文档,而不是结构化文档。在这种情况下:
- 在 Skill Designer 中单击技能名称右侧的图标。
- 关闭 Fixed-form documents 开关。
注意: 所有已标记的字段都会被保留。
- 重新训练您的技能。
使用表格和重复组
注意: 在处理结果中只会显示包含数据的行。任何空行都会被忽略。如果事先不知道组中的行数或实例数量,则必须使用其他 Vantage 技术,参见处理结构化文档。
提示: 目前,仅支持处理具有文本值的表格。如果您的表格包含复选框或条形码列,请改用重复组。
设置识别语言
注意: 选定语言的数量可能会影响文档处理速度。如果您完全确定 Vantage 在您的文档中会遇到哪些语言,建议将选定的语言限制为这些特定语言。即使技能已经训练完成,您仍然可以修改该技能的识别语言列表。要应用更改,请重新上传文档并重新训练该技能。
设置在线学习模式
- Collect and learn。默认选项。
- Collect only。当在 Skill Designer 中需要收集文档而不进行训练时使用。

