跳转到主要内容
假设单个 Document skill 需要同时处理半结构化和非结构化文档。在这种情况下,首先使用 Classify By Text and Image 活动,将文档按相应类型进行分类。该活动结合文本与几何特征,能够对较低质量的图像进行分类,并可区分仅能通过图形对象(如签名或印章)加以区别的不同类别文档。
使用 IF 活动对文档处理流程进行分支,将非结构化文档与半结构化文档分离。每个分支都可以采用“Processing semi-structured documents”和“Processing unstructured documents”章节中的任一方案。例如,半结构化文档可由 Fast Learning 活动处理,而非结构化文档可通过 Segmentation 活动与用于 NLP 的 Deep Learning 活动的组合进行处理。
由于上述文档均属于同一类型,它们将具有相同的一组输出字段。
- 打开 Advanced Designer。在开始页点击 Create Document Skill 创建一个新的 Skill。
- 在打开的 Documents 选项卡中,上传用于配置该 Skill 的文档。为确保用于训练分类器的文档集足够充分,请为每个变体添加数量大致相同的文档。
- 上传图像后,转到 Fields 选项卡,通过创建并配置将由 Skill 提取的字段,为该 Skill 建立字段结构。在 Reference 部分对文档进行标注。
- 转到 Activities 选项卡,在文档处理流中添加一个 Classify 活动。
- 打开 Activity Editor 并配置 Classify 活动。为此,为每个变体创建相应的类,将这些类分配给你的文档,并训练该活动。
- 返回 Activities 选项卡,通过添加 IF 活动以及处理各文档变体的单独活动,为处理流设置条件分支。
- 配置并训练你创建的各个活动。
- 点击 Test Skill Using Selected Documents 测试你的 Skill,并分析结果。
- 当测试结果达到预期时,发布你的 Skill。
假设你需要从包含表格的半结构化文档中提取数据,不仅要获取每个单元格的文本,还需要提取嵌在单元格文本中的特定数值。例如,如果你需要从 Closing Disclosure 文档中提取借款人信息,可以使用面向半结构化文档的 Fast Learning 活动先提取目标表格单元格的完整文本,再使用面向非结构化文档的活动(本例为 Named Entities (NER) 和 Address Parsing)从该单元格内抽取借款人的姓名及其地址的部分内容。
- 打开 Advanced Designer。在起始页点击 Create Document Skill 创建新的 Skill。
- 在打开的 Documents 选项卡中上传用于配置该 Skill 的文档。
- 上传图像后,转到 Fields 选项卡,通过创建并配置将由 Skill 提取的 fields 来建立该 Skill 的字段结构。在 Reference 部分为文档添加标签。
- 转到 Activities 选项卡,创建 Fast Learning 活动,并指定由该活动提取的 fields。
- 打开 Activity Editor,配置并训练 Fast Learning 活动。
- 返回 Activities 选项卡,创建 Named Entities (NER) 活动,指定源 field,以及用于存储已提取命名实体的 fields。将命名实体映射到所选 fields。
- 如果有包含地址的 field,且希望将地址拆分为各组成部分,请创建 Address Parsing 活动,指定源 field,以及用于存储已提取地址组件的 fields。将地址组件映射到所选 fields。
- 点击 Test Skill Using Selected Documents 测试 Skill,并分析结果。
- 当测试结果达到预期时,发布该 Skill。
假设你需要从包含表格、标题、页眉或页脚的非结构化文档(例如合同)中提取数据。
在这种情况下,配置一个 Segmentation 活动以检测连续的文本段落,并配置一个 Extraction Rules 活动以检测半结构化插入内容。检测到所需的文档片段后,使用相应的活动从这些片段中提取字段。
- 打开 Advanced Designer。在起始页点击 Create Document Skill 创建新的 Skill。
- 在自动打开的 Documents 选项卡中上传用于配置 Skill 的文档。
- 上传图像后,转到 Fields 选项卡,通过创建并配置将由 Skill 提取的字段,为该 Skill 设置字段结构。在 Reference 部分为文档添加标签。
- 转到 Activities 选项卡,创建 Segmentation 活动,并指定用于存储纯文本段落的字段。
- 打开 Activity Editor,配置并训练 Segmentation 活动。
- 返回 Activities 选项卡,创建 Extraction Rules 活动,并指定用于存储文档半结构化片段数据的字段。
- 打开 Activity Editor,配置并测试 Extraction Rules 活动。
- 点击 Test Skill Using Selected Documents 测试 Skill,并分析结果。
- 当测试结果令人满意时,发布该 Skill。