从混合文档集提取数据(半结构化与非结构化)

创建 Document Skill 的步骤
- 打开 Advanced Designer。在开始页点击 Create Document Skill 创建一个新的 Skill。
- 在打开的 Documents 选项卡中,上传用于配置该 Skill 的文档。为确保用于训练分类器的文档集足够充分,请为每个变体添加数量大致相同的文档。
- 上传图像后,转到 Fields 选项卡,通过创建并配置将由 Skill 提取的字段,为该 Skill 建立字段结构。在 Reference 部分对文档进行标注。
- 转到 Activities 选项卡,在文档处理流中添加一个 Classify 活动。
- 打开 Activity Editor 并配置 Classify 活动。为此,为每个变体创建相应的类,将这些类分配给你的文档,并训练该活动。
- 返回 Activities 选项卡,通过添加 IF 活动以及处理各文档变体的单独活动,为处理流设置条件分支。
- 配置并训练你创建的各个活动。
- 点击 Test Skill Using Selected Documents 测试你的 Skill,并分析结果。
- 当测试结果达到预期时,发布你的 Skill。
从半结构化文档的表格单元格中提取文本

创建 Document Skill 的步骤
- 打开 Advanced Designer。在起始页点击 Create Document Skill 创建新的 Skill。
- 在打开的 Documents 选项卡中上传用于配置该 Skill 的文档。
- 上传图像后,转到 Fields 选项卡,通过创建并配置将由 Skill 提取的 fields 来建立该 Skill 的字段结构。在 Reference 部分为文档添加标签。
- 转到 Activities 选项卡,创建 Fast Learning 活动,并指定由该活动提取的 fields。
- 打开 Activity Editor,配置并训练 Fast Learning 活动。
- 返回 Activities 选项卡,创建 Named Entities (NER) 活动,指定源 field,以及用于存储已提取命名实体的 fields。将命名实体映射到所选 fields。
- 如果有包含地址的 field,且希望将地址拆分为各组成部分,请创建 Address Parsing 活动,指定源 field,以及用于存储已提取地址组件的 fields。将地址组件映射到所选 fields。
- 点击 Test Skill Using Selected Documents 测试 Skill,并分析结果。
- 当测试结果达到预期时,发布该 Skill。

创建 Document Skill 的步骤
- 打开 Advanced Designer。在起始页点击 Create Document Skill 创建新的 Skill。
- 在自动打开的 Documents 选项卡中上传用于配置 Skill 的文档。
- 上传图像后,转到 Fields 选项卡,通过创建并配置将由 Skill 提取的字段,为该 Skill 设置字段结构。在 Reference 部分为文档添加标签。
- 转到 Activities 选项卡,创建 Segmentation 活动,并指定用于存储纯文本段落的字段。
- 打开 Activity Editor,配置并训练 Segmentation 活动。
- 返回 Activities 选项卡,创建 Extraction Rules 活动,并指定用于存储文档半结构化片段数据的字段。
- 打开 Activity Editor,配置并测试 Extraction Rules 活动。
- 点击 Test Skill Using Selected Documents 测试 Skill,并分析结果。
- 当测试结果令人满意时,发布该 Skill。
