跳转到主要内容
在从半结构化文档中提取数据时,Advanced Designer 将用于处理复杂的文档集(例如,其中包含许多差异巨大的文档变体的文档集)。文档处理流程将包括用于从半结构化文档中提取数据的活动。

在开发完成后可能出现新的文档变体

假设您需要处理同一类型但版面布局各不相同的文档,而在技能开发阶段又无法提供所有文档变体。这种情况可能出现在您创建一个技能来处理来自不同供应商的发票时。通常,每个供应商都有自己的发票模板,而且可以肯定的是,将来还会出现新的模板。如果您拥有足够数量的文档样本,可以先使用 Deep Learning 活动,然后再使用 Fast Learning 活动。 Deep Learning 活动将负责处理此前未见过的文档变体,而 Fast Learning 活动会学习客户提供的特定文档变体,从而在这些文档上实现更高的处理质量。Fast Learning 活动也可以通过来自人工审核的 Online Learning 反馈循环进行训练。 Deep Learning with Fast Learning

创建文档技能的步骤

  1. 打开 Advanced Designer。在起始页点击 Create Document Skill 创建一个新的技能。
  2. 在打开的 Documents 选项卡中上传将用于配置该技能的文档。
  3. 上传图像后,转到 Fields 选项卡,通过创建和配置将由该技能提取的字段,为技能设置字段结构。在 Reference 部分对文档进行标注。
  4. 转到 Activities 选项卡,在文档处理流程中添加一个用于半结构化文档的 Deep Learning 活动。
  5. 打开 Activity Editor 配置并训练 Deep Learning 活动。请注意,用于训练此活动的文档集应至少包含 100 份已标注文档。
  6. 返回 Activities 选项卡,在文档处理流程中添加 Fast Learning 活动。
  7. 打开 Activity Editor 配置并训练该活动。
  8. 点击 Test Skill Using Selected Documents 测试该技能,并分析获得的结果。
  9. 当测试结果足够理想时,发布该技能。

某些文档包含无法通过机器学习提取的结构

假设文档集中大多数文档变体都可以通过 Deep Learning 和 Fast Learning 活动来处理。但仍然会有少量文档包含嵌套表格,或者在其他方面与用于训练的所有其他文档完全不同。 要处理此类文档,需要使用 Classification 活动将它们从主文档集中分离出来:
  • 如果文档变体由不同公司出具,并且公司名称和/或地址打印在文档上,请使用 Classify By Company 活动。 例如,在处理来自不同银行的对账单时,可以轻松提供这些银行的数据库列表,从而单独处理所有需要特殊处理的变体。
  • 在其他所有情况下,请使用 Classify By Text and Image 活动。此多模态分类技术使用文本、空间结构和图像模式来区分不同的文档变体,因此可以轻松识别偏离常规的文档变体。
使用 IF 活动来分支文档处理流程,将处理质量较差的文档变体(例如前面提到的包含嵌套表格的文档)分离出来,然后使用 Extraction Rules 活动从此类文档中提取目标字段和表格。 包含 Deep Learning 和 Extraction Rules 的 IF

创建文档技能的步骤

  1. 打开 Advanced Designer。在起始页点击 Create Document Skill 创建一个新的文档技能。
  2. 在打开的 Documents 选项卡中上传将用于配置技能的文档。为确保文档集足以用于配置分类器,请为每个变体添加数量大致相同的文档。
  3. 上传图像后,转到 Fields 选项卡,通过创建并配置将由技能提取的字段,为该技能设置字段结构。在 Reference 部分对文档进行标注。
  4. 转到 Activities 选项卡,在文档处理流程中添加一个 Classify 活动。
  5. 打开 Activity Editor 并配置 Classify 活动。为此,请为每个变体创建相应的类别,将这些类别分配给文档,并训练该活动。
  6. 返回 Activities 选项卡,通过添加 IF 活动以及用于处理各文档变体的单独活动,为处理流程设置条件分支。
  7. 配置所创建的各个活动。
  8. 点击 使用选定文档测试技能 来测试技能,并分析获得的结果。
  9. 当测试结果令人满意时,发布你的技能。

您没有足够的文档来使用机器学习

假设您需要从少量文档变体中提取数据,但没有足够的文档来训练 Deep Learning 活动,不过您拥有一定的专业知识,能够描述每种文档变体的数据提取基本原则。例如,如果您要创建一个用于处理不同年度报税表的技能,可以使用 Classify 活动将所有文档划分为不同的变体。随后应添加一组 Extraction Rules 活动,其中每个活动都针对特定的文档变体进行定制。如果希望 Vantage 进一步训练您的技能,可以添加一个 Fast Learning 活动 Multiple Extraction Rules

创建文档技能的步骤

  1. 打开 Advanced Designer。在起始页点击 Create Document Skill 创建一个新的技能。
  2. 使用打开的 Documents 选项卡上传将用于配置技能的文档。为确保文档集足以用于设置分类器,请为每个变体添加数量大致相同的文档。
  3. 上传图像后,转到 Fields 选项卡,通过创建和配置将由技能提取的字段,为该技能设置字段结构。在 Reference 部分对文档进行标注。
  4. 转到 Activities 选项卡,将 Classify 活动添加到文档处理流程中。
  5. 打开 Activity Editor 并配置 Classify 活动。为此,请为每个变体创建相应的类别,将这些类别分配给文档,并训练该活动。
  6. 返回 Activities 选项卡并创建一个 Extraction Rules 活动。将其他 Extraction Rules 活动添加到此工作流项中。通过选择由 Classify 活动填充的字段并将其值映射到各个 Extraction Rules 活动来设置分支条件。对于某些不需要特殊提取规则的类别文档,您也可以跳过此步骤。
  7. 配置您创建的提取活动。
  8. 点击 Test Skill Using Selected Documents 测试您的技能,并分析获得的结果。
  9. 当测试结果令人满意时,发布您的技能。