从混合文档集(半结构化和非结构化)中提取数据

创建文档技能的步骤
- 打开 Advanced Designer。在开始页点击 Create Document Skill 创建一个新的技能。
- 使用随即打开的 Documents 选项卡上传用于配置技能的文档。为确保文档集足以用于设置分类器,请为每个文档变体添加数量大致相同的文档。
- 上传图像后,转到 Fields 选项卡,通过创建并配置将由技能提取的字段,为技能设置字段结构。在 Reference 部分对文档进行标注。
- 转到 Activities 选项卡,并在文档处理流程中添加一个 Classify activity。
- 打开 Activity Editor 并配置 Classify activity。为此,为每个变体创建相应的类,将这些类分配给文档,并训练该 activity。
- 返回 Activities 选项卡,通过添加 IF activity,以及用于处理每个文档变体的单独 activities,为处理流程设置条件分支。
- 配置并训练您创建的 activities。
- 点击 Test Skill Using Selected Documents 测试您的技能,并分析获得的结果。
- 当测试结果足够理想时,发布您的技能。
从半结构化文档的表格单元格中提取文本

创建文档技能的步骤
- 打开 Advanced Designer。在开始页面点击 Create Document Skill 创建新的文档技能。
- 使用打开的 Documents 选项卡上传用于配置技能的文档。
- 上传图像后,转到 Fields 选项卡,为该技能设置字段结构,创建并配置将由该技能提取的字段。在 Reference 部分中标注文档。
- 转到 Activities 选项卡,创建 Fast Learning 活动,并指定将由该活动提取的字段。
- 打开 Activity Editor,配置并训练 Fast Learning 活动。
- 返回 Activities 选项卡,创建 Named Entities (NER) 活动,并指定源字段,以及用于存储提取出的命名实体的字段。将命名实体映射到选定字段。
- 如果有包含地址的字段并希望将地址拆分为多个组成部分,请创建 Address Parsing 活动,并指定源字段,以及用于存储提取出的地址组成部分的字段。将地址组成部分映射到选定字段。
- 点击 Test Skill Using Selected Documents 测试技能,并分析获得的结果。
- 当测试结果令人满意后,发布技能。

创建文档技能的步骤
- 打开 Advanced Designer。在起始页单击 Create Document Skill 创建新的技能。
- 在随即打开的 Documents 选项卡中上传用于配置技能的文档。
- 上传图像后,转到 Fields 选项卡,为技能设置字段结构,创建并配置将由该技能提取的字段。在 Reference 部分对文档进行标记。
- 转到 Activities 选项卡,创建一个 Segmentation 活动,并指定用于存储纯文本段落的字段。
- 打开 Activity Editor,配置并训练 Segmentation 活动。
- 返回 Activities 选项卡,创建一个 Extraction Rules 活动,并指定用于存储文档半结构化片段数据的字段。
- 打开 Activity Editor,配置并测试 Extraction Rules 活动。
- 单击 Test Skill Using Selected Documents 测试该技能,并分析获得的结果。
- 当测试结果足够理想时,发布该技能。
