跳转到主要内容
要训练和测试 Skill,您需要一组已标注的文档,即在文档中明确标识字段的位置及其数据类型。获取此类数据集的最直接方法是手动标注一些文档,但这可能非常耗时——尤其当您计划使用深度学习(Deep Learning)时,因为它需要大量已标注的文档。为节省时间和精力,ABBYY 提供了多种方式,可重用来自其他 Skill 或人工复核的处理结果中的已标注文档。

手动标注文档

为每个上传的文档标注所有 field 的位置,并指定其应包含的数据类型。为确保训练结果可靠,请遵循这些指南

从文件夹导入已标注文档

已标注文档还可来自以下来源: 在上述每种情况下,您需要先将已标注文档导出到一个文件夹。然后即可从该文件夹导入带标注的文档,并用于训练您的 Skill。

Skill 训练集

在将 Skill 发布到生产环境时,通常会移除训练集,只在发布版本中保留少量示例文档。您也可以选择将训练集导出到文件夹,以便在为该 Skill 训练新版本时复用相同的训练集。 要将文档及其标注导出到文件夹,请点击文档集名称旁的更多 icon,然后选择 Export Set with Labeling。目标文件夹将包含以下文件和子文件夹:
  • documentdefinition.json
  • skillsettings.json
  • 一个名为 <Document name> 的子文件夹,其中包含文档图像、documentinfo.jsonlabeling.json 文件(每个文档各有一套)。

经人工校验的处理结果

当处理结果由人工校验人员更正后,会生成一组已标注的文档。要复用这些已标注的文档,请将 field 数据以 JSON 格式导出,并启用每个文档的值、元数据和字段结构选项,同时将文档图像导出为任意图像格式。目标文件夹将为每个处理事务创建一个单独的子文件夹。每个 <Transaction ID> 子文件夹包含以下内容:
  • 含有字段数据的 <Applied skill name>.json 文件。
  • 按所选格式导出的图像:<Applied skill name>.pdf<Applied skill name>.tiff,或 <Applied skill name>/Pages 子文件夹(其中每一页对应一个 page_*.jpg 文件)。

FlexiCapture

您可以复用先前在 FlexiCapture 中标注的文档。有关详细信息,请参阅从 FlexiCapture 导入已标注文档

如何导入

要从导出时创建的文件夹导入已标注的文档,选择 All Documents 集合,点击 Upload 按钮旁的下拉菜单,然后在下拉列表中选择 Import Labeled Documents From Folder… 选项。然后,选择你先前创建的文件夹。 注意: 请不要对导出时创建的文件夹进行任何更改。如果你更改了子文件夹结构或重命名了某些文件,导入过程可能会出错。

如何处理重复项

如果导入的任何文档与现有文档同名,Advanced Designer 会询问您是更新现有文档的标注,还是将重复项作为新文档导入。 如果您选择 Update Labeling(更新标注):
  • 对于同名字段,现有文档中的位置和设置将被导入文档中的对应内容覆盖。
  • 导入文档中存在而现有文档中没有的任何字段将被添加到现有文档中。
如果您选择 Import As New Documents(作为新文档导入),重复项将被重命名,并在保留其标注的情况下导入。