跳转到主要内容用于处理非结构化文档的 Skill 只能在 Advanced Designer 中创建。此类 Skill 的文档处理流程将包含用于通过 NLP 提取数据的活动。
以下活动仅支持数量有限的语言。您可以在各自页面上查看每个活动支持的语言列表:
- Segmentation activity
- Deep Learning for NLP activity
- Named Entities (NER) activity
- Address Parsing activity
假设你需要创建一个 Document skill,从非结构化文档(例如信件)中提取公司名称和地址。为提取这些实体,你可以配置 Named Entities (NER) 活动,用于识别并提取命名实体。若需要将地址拆分为街道、城市、州/省、国家、邮政编码等组成部分,并分别提取到不同字段中,请配置 Address Parsing 活动。
- 打开 Advanced Designer。在开始页点击 Create Document Skill 创建新的 Skill。
- 在打开的 Documents 选项卡中,上传用于配置该 Skill 的文档。
- 上传图像后,转到 Fields 选项卡,创建并配置由该 Skill 提取的 field,为该 Skill 设置字段结构。在 Reference 部分对文档进行标注。
- 转到 Activities 选项卡。创建 Named Entities (NER) 活动,并指定用于存储提取命名实体的字段。将命名实体映射到所选字段。
- 如果某个字段包含地址且希望将其拆分为各组成部分,创建 Address Parsing 活动,并指定用于存储提取地址组件的字段。将地址组件映射到所选字段。
- 点击 Test Skill Using Selected Documents 测试该 Skill,并分析结果。
- 当测试结果足够理想时,发布该 Skill。
假设要提取的命名实体始终位于同一段落。例如,如果需要从销售与购买协议中的“购买价格”段落提取一笔金额,先使用 Segmentation 活动提取目标段落,再使用 Named Entities (NER) 活动提取目标字段。目标数据应是 Named Entities (NER) 或 Address Parsing 活动支持的命名实体,例如姓名、地址和日期。
你也可以使用 Fast Learning 和 Extraction Rules 活动提取目标段落。为此,先确保文本片段已由 Fast Learning 或 Extraction Rules 活动正确提取,然后创建并配置 Named Entities (NER) 或 Address Parsing 活动。
如果目标段落还包含同类型但不应提取的其他命名实体,请参阅以下用例。
预训练活动是良好的起点,因为它们易于配置且不需要训练。不过,基于你的文档训练的神经网络可能带来更高的提取准确率。如果你拥有大量文档集,也可以尝试下一种方案,并选择在你的 documents 上表现更佳的那一个。
- 打开 Advanced Designer。在开始页面点击Create Document Skill创建新的 Skill。
- 在打开的 Documents 选项卡中,上传用于配置 Skill 的文档。
- 上传图像后,转到 Fields 选项卡,通过创建并配置将由该 Skill 提取的 field,为 Skill 设置字段结构。在Reference部分为文档添加标签。
- 转到 Activities 选项卡,创建 Segmentation 活动,并指定用于存储目标段落的字段。
- 打开Activity Editor,配置并训练 Segmentation 活动。
- 返回Activities选项卡,创建 Named Entities (NER) 活动,指定源字段及用于存储提取命名实体的字段。将命名实体映射到所选字段。
- 如果存在包含地址的字段且希望将地址拆分为组成部分,创建 Address Parsing 活动,指定源字段及用于存储提取出的地址组成部分的字段。将地址组成部分映射到所选字段。
- 点击Test Skill Using Selected Documents测试该 Skill,并分析结果。
- 当测试结果达到预期时,发布该 Skill。
假设你需要从一个同时包含协议双方信息的段落中,仅提取其中一方组织的名称。此外,你还需要提取一个电子邮件地址。在这种情况下,应先使用 Segmentation 活动提取目标段落。不过,不能使用 Named Entities (NER) 活动,因为它会从目标段落中提取两个组织的名称,而且并未针对邮箱提取进行训练。此时请改用用于 NLP 的 Deep Learning 活动。
你也可以将此方案用于提升预训练命名实体的提取准确性。可以同时测试预训练活动和 Deep Learning 活动,然后选择在你的文档上表现更好的那个。
请注意,使用此活动需要大量文档(最低 50 份,建议至少 150 份)。你也可以同时测试这两种活动(Named Entities (NER) 和 Deep Learning for NLP),然后选择在你的文档上表现更好的活动。
创建 Document Skill 的步骤
- 打开 Advanced Designer。在开始页面点击 Create Document Skill 创建新的 Skill。
- 在自动打开的 Documents 选项卡中,上传用于配置 Skill 的文档。
- 上传图像后,转到 Fields 选项卡,通过创建并配置将由 Skill 提取的字段来为 Skill 建立字段结构。在 Reference 部分对文档进行标注。
- 转到 Activities 选项卡,创建 Segmentation 活动,并指定用于存储目标段落的字段。
- 打开 Activity Editor,配置并训练 Segmentation 活动。
- 返回 Activities 选项卡,创建 Deep Learning for NLP 活动,并指定应由该活动提取的字段。
- 打开 Activity Editor 配置并训练 Deep Learning 活动。
- 点击 Test Skill Using Selected Documents 测试 Skill,并分析获得的结果。
- 当测试结果达到预期时,发布 Skill。