要训练和测试技能,您需要一组已标注的文档,也就是在文档中明确标出了各字段的位置及其数据类型。获取这样一组文档最直接的方法是手动标注一些文档,但这可能非常耗时——尤其当您计划使用深度学习时,因为深度学习需要大量已标注的文档。为节省时间和精力,ABBYY 提供了多种方式,可以重用来自其他技能或来自手动复核处理结果的已标注文档。
为每个上传的文档标记所有字段的位置,并指定这些字段预期包含的数据类型。为了确保训练结果可靠,请遵循这些指南。
已标注文档还可以从以下来源获取:
在每种情况下,您都需要先将已标注文档导出到一个文件夹。然后,您就可以从该文件夹导入带有标注的文档,并将其用于训练您的技能。
在将技能发布到生产环境时,通常会删除训练集,只在已发布版本中保留少量示例文档。如果打算使用相同的训练集来训练该技能的新版本,也可以选择将训练集导出到一个文件夹。
要将文档及其标注导出到文件夹,请单击文档集名称旁边的更多操作图标,然后选择 Export Set with Labeling (导出包含标注的集合) 。目标文件夹将包含以下文件和子文件夹:
documentdefinition.json。
skillsettings.json。
- 一个
<Document name> 子文件夹,其中包含文档图像、documentinfo.json 和 labeling.json 文件,每个文档对应一组文件。
当处理结果由人工审核人员进行更正时,会创建一组带标签的文档。若要复用这些带标签的文档,请设置将字段数据导出为 JSON,并启用 每个文档的值、元数据和字段结构 选项,同时将文档图像导出为任意图像格式。目标文件夹中将为每个事务创建一个单独的子文件夹。每个 <Transaction ID> 子文件夹将包含以下内容:
- 带有字段数据的
<Applied skill name>.json 文件。
- 根据所选格式导出的图像:
<Applied skill name>.pdf、<Applied skill name>.tiff,或包含每个页面 page_*.jpg 文件的 <Applied skill name>/Pages 子文件夹。
您可以再次使用之前在 FlexiCapture 中标注过的文档。有关详细信息,请参见从 FlexiCapture 导入已标注文档。
要从导出时创建的文件夹中导入已标注的文档,选择 All Documents 集合,单击 Upload 按钮旁边的下拉菜单,然后在下拉列表中选择 Import Labeled Documents From Folder… 选项。接下来,选择之前创建的文件夹。
请不要对导出时创建的文件夹进行任何更改。如果更改子文件夹结构或重命名某些文件,导入过程可能会出错。
如果任何导入的文档与现有文档同名,Advanced Designer 会询问您是要更新现有文档的标注,还是将该重复项作为新文档导入。
如果选择 Update Labeling:
- 对于同名字段,其在现有文档中的位置和设置将被导入文档中的位置和设置覆盖。
- 任何在导入文档中存在但在现有文档中不存在的字段都会被添加到现有文档中。
如果选择 Import As New Documents,重复项将被重命名,并在保留其标注的情况下导入。