跳转到主要内容

从混合文档集(半结构化和非结构化)中提取数据

假设需要由单个文档技能同时处理半结构化和非结构化文档。在这种情况下,首先使用 Classify By Text and Image 活动,根据文档内容将其分类到相应的文档类型中。该活动结合了文本特征和几何特征,能够对质量较差的图像,以及那些只能通过图形对象(例如签名或印章)加以区分的不同类别文档进行分类。 使用 IF 活动对文档处理流程进行分支,将非结构化文档与半结构化文档分开。每个分支都可以采用“处理半结构化文档”和“处理非结构化文档”部分中的任一方案进行处理。例如,半结构化文档可以通过 Fast Learning 活动处理,而非结构化文档可以通过 Segmentation 活动与用于 NLP 的 Deep Learning 活动相结合的方式进行处理。 由于上述文档都属于同一文档类型,它们将具有相同的一组输出字段。 混合文档处理流程

创建文档技能的步骤

  1. 打开 Advanced Designer。在开始页点击 Create Document Skill 创建一个新的技能。
  2. 使用随即打开的 Documents 选项卡上传用于配置技能的文档。为确保文档集足以用于设置分类器,请为每个文档变体添加数量大致相同的文档。
  3. 上传图像后,转到 Fields 选项卡,通过创建并配置将由技能提取的字段,为技能设置字段结构。在 Reference 部分对文档进行标注。
  4. 转到 Activities 选项卡,并在文档处理流程中添加一个 Classify activity。
  5. 打开 Activity Editor 并配置 Classify activity。为此,为每个变体创建相应的类,将这些类分配给文档,并训练该 activity。
  6. 返回 Activities 选项卡,通过添加 IF activity,以及用于处理每个文档变体的单独 activities,为处理流程设置条件分支。
  7. 配置并训练您创建的 activities。
  8. 点击 Test Skill Using Selected Documents 测试您的技能,并分析获得的结果。
  9. 当测试结果足够理想时,发布您的技能。

从半结构化文档的表格单元格中提取文本

假设您正在从包含表格的半结构化文档中提取数据,不仅需要提取每个单元格的文本,还需要提取嵌入在单元格文本中的特定数值。例如,如果您需要从 Closing Disclosure 文档中提取有关借款人的信息,您可以使用 Fast Learning 活动(适用于半结构化文档)来提取目标表格单元格中的完整文本内容,然后再使用适用于非结构化文档的活动(本例中为 Named Entities(NER)和 Address Parsing)从该目标单元格中提取借款人的姓名以及其地址的一部分。 Fast Learning 结合 NER 与 Address Parsing

创建文档技能的步骤

  1. 打开 Advanced Designer。在开始页面点击 Create Document Skill 创建新的文档技能。
  2. 使用打开的 Documents 选项卡上传用于配置技能的文档。
  3. 上传图像后,转到 Fields 选项卡,为该技能设置字段结构,创建并配置将由该技能提取的字段。在 Reference 部分中标注文档。
  4. 转到 Activities 选项卡,创建 Fast Learning 活动,并指定将由该活动提取的字段。
  5. 打开 Activity Editor,配置并训练 Fast Learning 活动。
  6. 返回 Activities 选项卡,创建 Named Entities (NER) 活动,并指定源字段,以及用于存储提取出的命名实体的字段。将命名实体映射到选定字段。
  7. 如果有包含地址的字段并希望将地址拆分为多个组成部分,请创建 Address Parsing 活动,并指定源字段,以及用于存储提取出的地址组成部分的字段。将地址组成部分映射到选定字段。
  8. 点击 Test Skill Using Selected Documents 测试技能,并分析获得的结果。
  9. 当测试结果令人满意后,发布技能。

从包含表格、标题、页眉和页脚的非结构化文档中提取数据

假设需要从包含表格、标题、页眉或页脚的非结构化文档(例如合同)中提取数据。 Sample Mixed Document 在这种情况下,配置一个 Segmentation 活动,用于检测连续的文本段落,并配置一个 Extraction Rules 活动,用于检测半结构化插入部分。检测到所需的文档片段后,使用相应的活动从这些片段中提取字段。

创建文档技能的步骤

  1. 打开 Advanced Designer。在起始页单击 Create Document Skill 创建新的技能。
  2. 在随即打开的 Documents 选项卡中上传用于配置技能的文档。
  3. 上传图像后,转到 Fields 选项卡,为技能设置字段结构,创建并配置将由该技能提取的字段。在 Reference 部分对文档进行标记。
  4. 转到 Activities 选项卡,创建一个 Segmentation 活动,并指定用于存储纯文本段落的字段。
  5. 打开 Activity Editor,配置并训练 Segmentation 活动。
  6. 返回 Activities 选项卡,创建一个 Extraction Rules 活动,并指定用于存储文档半结构化片段数据的字段。
  7. 打开 Activity Editor,配置并测试 Extraction Rules 活动。
  8. 单击 Test Skill Using Selected Documents 测试该技能,并分析获得的结果。
  9. 当测试结果足够理想时,发布该技能。