跳转到主要内容

从混合文档集提取数据(半结构化与非结构化)

假设单个 Document skill 需要同时处理半结构化和非结构化文档。在这种情况下,首先使用 Classify By Text and Image 活动,将文档按相应类型进行分类。该活动结合文本与几何特征,能够对较低质量的图像进行分类,并可区分仅能通过图形对象(如签名或印章)加以区别的不同类别文档。 使用 IF 活动对文档处理流程进行分支,将非结构化文档与半结构化文档分离。每个分支都可以采用“Processing semi-structured documents”和“Processing unstructured documents”章节中的任一方案。例如,半结构化文档可由 Fast Learning 活动处理,而非结构化文档可通过 Segmentation 活动与用于 NLP 的 Deep Learning 活动的组合进行处理。 由于上述文档均属于同一类型,它们将具有相同的一组输出字段。 混合文档处理流程

创建 Document Skill 的步骤

  1. 打开 Advanced Designer。在开始页点击 Create Document Skill 创建一个新的 Skill。
  2. 在打开的 Documents 选项卡中,上传用于配置该 Skill 的文档。为确保用于训练分类器的文档集足够充分,请为每个变体添加数量大致相同的文档。
  3. 上传图像后,转到 Fields 选项卡,通过创建并配置将由 Skill 提取的字段,为该 Skill 建立字段结构。在 Reference 部分对文档进行标注。
  4. 转到 Activities 选项卡,在文档处理流中添加一个 Classify 活动。
  5. 打开 Activity Editor 并配置 Classify 活动。为此,为每个变体创建相应的类,将这些类分配给你的文档,并训练该活动。
  6. 返回 Activities 选项卡,通过添加 IF 活动以及处理各文档变体的单独活动,为处理流设置条件分支。
  7. 配置并训练你创建的各个活动。
  8. 点击 Test Skill Using Selected Documents 测试你的 Skill,并分析结果。
  9. 当测试结果达到预期时,发布你的 Skill。

从半结构化文档的表格单元格中提取文本

假设你需要从包含表格的半结构化文档中提取数据,不仅要获取每个单元格的文本,还需要提取嵌在单元格文本中的特定数值。例如,如果你需要从 Closing Disclosure 文档中提取借款人信息,可以使用面向半结构化文档的 Fast Learning 活动先提取目标表格单元格的完整文本,再使用面向非结构化文档的活动(本例为 Named Entities (NER) 和 Address Parsing)从该单元格内抽取借款人的姓名及其地址的部分内容。 结合 NER 与 Address Parsing 的 Fast Learning

创建 Document Skill 的步骤

  1. 打开 Advanced Designer。在起始页点击 Create Document Skill 创建新的 Skill。
  2. 在打开的 Documents 选项卡中上传用于配置该 Skill 的文档。
  3. 上传图像后,转到 Fields 选项卡,通过创建并配置将由 Skill 提取的 fields 来建立该 Skill 的字段结构。在 Reference 部分为文档添加标签。
  4. 转到 Activities 选项卡,创建 Fast Learning 活动,并指定由该活动提取的 fields。
  5. 打开 Activity Editor,配置并训练 Fast Learning 活动。
  6. 返回 Activities 选项卡,创建 Named Entities (NER) 活动,指定源 field,以及用于存储已提取命名实体的 fields。将命名实体映射到所选 fields。
  7. 如果有包含地址的 field,且希望将地址拆分为各组成部分,请创建 Address Parsing 活动,指定源 field,以及用于存储已提取地址组件的 fields。将地址组件映射到所选 fields。
  8. 点击 Test Skill Using Selected Documents 测试 Skill,并分析结果。
  9. 当测试结果达到预期时,发布该 Skill。

从包含表格、标题、页眉和页脚的非结构化文档中提取数据

假设你需要从包含表格、标题、页眉或页脚的非结构化文档(例如合同)中提取数据。 示例混合文档 在这种情况下,配置一个 Segmentation 活动以检测连续的文本段落,并配置一个 Extraction Rules 活动以检测半结构化插入内容。检测到所需的文档片段后,使用相应的活动从这些片段中提取字段。

创建 Document Skill 的步骤

  1. 打开 Advanced Designer。在起始页点击 Create Document Skill 创建新的 Skill。
  2. 在自动打开的 Documents 选项卡中上传用于配置 Skill 的文档。
  3. 上传图像后,转到 Fields 选项卡,通过创建并配置将由 Skill 提取的字段,为该 Skill 设置字段结构。在 Reference 部分为文档添加标签。
  4. 转到 Activities 选项卡,创建 Segmentation 活动,并指定用于存储纯文本段落的字段。
  5. 打开 Activity Editor,配置并训练 Segmentation 活动。
  6. 返回 Activities 选项卡,创建 Extraction Rules 活动,并指定用于存储文档半结构化片段数据的字段。
  7. 打开 Activity Editor,配置并测试 Extraction Rules 活动。
  8. 点击 Test Skill Using Selected Documents 测试 Skill,并分析结果。
  9. 当测试结果令人满意时,发布该 Skill。