跳转到主要内容
在从半结构化文档中提取数据时,可使用 Advanced Designer 处理复杂的文档集(例如包含众多差异显著的文档变体的集合)。文档处理流程将包括用于从半结构化文档中提取数据的活动。

开发完成后可能会出现新的文档变体

假设你需要处理同一类型但版式各异的文档,但在 Skill 开发阶段无法提供所有文档变体。例如,当你创建一个用于处理不同供应商发票的 Skill 时,通常每个供应商都有自己的发票模板,并且未来必然会出现新的模板。如果你有足够的文档样本,可以先使用 Deep Learning activity,然后再使用 Fast Learning activity。 Deep Learning activity 负责处理无法预见的文档变体,而 Fast Learning activity 会学习客户提供的特定文档变体,从而进一步提升这些文档的处理质量。Fast Learning activity 还可以通过来自人工校验的 Online Learning 反馈回路进行训练。 Deep Learning with Fast Learning

创建 Document Skill 的步骤

  1. 打开 Advanced Designer。在起始页点击 Create Document Skill 创建新的 Skill。
  2. 在打开的 Documents 选项卡中上传用于配置该 Skill 的文档。
  3. 上传图像后,转到 Fields 选项卡,通过创建并配置将由 Skill 抽取的 field,为该 Skill 建立字段结构。在 Reference 部分对文档进行标注。
  4. 转到 Activities 选项卡,在文档处理流中添加适用于半结构化文档的 Deep Learning activity。
  5. 打开 Activity Editor 配置并训练 Deep Learning activity。请注意,用于训练该 activity 的文档集应至少包含 100 份已标注的文档。
  6. 返回 Activities 选项卡,在文档处理流中添加 Fast Learning activity。
  7. 打开 Activity Editor 配置并训练该 activity。
  8. 点击 Test Skill Using Selected Documents 测试你的 Skill,并分析结果。
  9. 当测试结果达到预期时,发布你的 Skill。

有些文档包含机器学习无法提取的结构

假设你的文档集中大多数文档变体可以通过 Deep Learning 和 Fast Learning 活动处理。但仍可能有少数文档包含嵌套表格,或在其他方面与用于训练的文档完全不同。 要处理这类文档,需要使用 Classification 活动将它们从主文档集中分离:
  • 如果文档变体由不同公司出具,且文档上印有公司名称和/或地址,请使用 Classify By Company 活动。 例如,在处理来自不同银行的银行对账单时,你可以轻松提供这些银行的数据库列表,从而单独处理需要特殊处理的所有变体。
  • 其他情况下,请使用 Classify By Text and Image 活动。该多模态分类技术利用文本、空间结构及图像模式来区分不同的文档变体,因此可以轻松识别与众不同的文档变体。
使用 IF 活动对文档处理流程进行分支,将处理质量较低的文档变体(例如前面提到的包含嵌套表格的文档)分离出来,然后使用 Extraction Rules 活动从此类文档中提取目标字段和表格。 IF 搭配 Deep Learning 和 Extraction Rules

创建 Document Skill 的步骤

  1. 打开 Advanced Designer。在开始页面点击 Create Document Skill 创建一个新的 Skill。
  2. 在自动打开的 Documents 选项卡中,上传用于配置 Skill 的文档。为确保文档集足以用于设置分类器,请为每种变体添加数量大致相同的文档。
  3. 上传图像后,转到 Fields 选项卡,通过创建并配置将由 Skill 提取的 field,为该 Skill 建立字段结构。在 Reference 部分为文档添加标签。
  4. 转到 Activities 选项卡,在文档处理流程中添加一个 Classify 活动。
  5. 打开 Activity Editor 并配置 Classify 活动。为此,为每种变体创建相应的类,将这些类分配给文档,并训练该活动。
  6. 返回 Activities 选项卡,通过添加 IF 活动以及用于处理每个文档变体的单独活动,为处理流程设置条件分支。
  7. 配置你创建的活动。
  8. 点击 Test Skill Using Selected Documents 测试你的 Skill,并分析结果。
  9. 当测试结果达到预期时,发布你的 Skill。

你的文档数量不足以使用机器学习

假设你需要从少量文档变体中提取数据,但没有足够的文档来训练 Deep Learning 活动;不过,你具备某些专家知识,能够概括每种文档变体的数据提取基本原则。比如,如果你正在创建一个用于处理不同年份税表的 Skill,你可以使用 Classify 活动将所有文档划分为不同变体。接下来配置一组 Extraction Rules 活动,其中每个活动都针对特定的文档变体进行定制。如果希望 Vantage 进一步训练你的 Skill,请添加 Fast Learning activity Multiple Extraction Rules

创建 Document Skill 的步骤

  1. 打开 Advanced Designer。在起始页点击 Create Document Skill 创建一个新的 Skill。
  2. 在打开的 Documents 选项卡中上传用于配置 Skill 的文档。为确保文档集足以训练分类器,请为每个变体添加数量大致相同的文档。
  3. 上传图像后,前往 Fields 选项卡,通过创建并配置将由 Skill 提取的 field,为该 Skill 设定字段结构。在 Reference 部分为文档打标。
  4. 前往 Activities 选项卡,将 Classify 活动添加到文档处理流程中。
  5. 打开 Activity Editor,并配置 Classify 活动。为此,请为每个变体创建相应的类,将这些类分配给文档,并训练该活动。
  6. 返回 Activities 选项卡并创建一个 Extraction Rules 活动。将其他 Extraction Rules 活动添加到此工作流项中。通过选择由 Classify 活动填充的 field,并将其值映射到各个 Extraction Rules 活动来设置分支条件。对于不需要特殊抽取规则的某些类别的文档,您也可以跳过此步骤。
  7. 配置已创建的抽取活动。
  8. 点击 Test Skill Using Selected Documents 测试 Skill,并分析结果。
  9. 当测试结果达到预期时,发布 Skill。