跳转到主要内容用于处理非结构化文档的技能只能在 Advanced Designer 中创建。此类技能的文档处理流程将包含用于通过 NLP 提取数据的活动。
以下活动仅支持有限数量的语言。您可以在各活动对应的页面上找到每个活动支持的语言列表:
- Segmentation 活动
- Deep Learning for NLP 活动
- Named Entities (NER) 活动
- Address Parsing 活动
假设您需要创建一个文档技能,从非结构化文档 (例如信件) 中提取公司名称和地址。要提取这些实体,您可以配置一个 Named Entities (NER) 活动,该活动专门用于提取命名实体。如果需要将地址拆分为街道、城市、州/省、国家、邮政编码等组成部分,并分别提取到不同字段中,请配置一个 Address Parsing 活动。
- 打开 Advanced Designer。在开始页单击 Create Document Skill 创建一个新的技能。
- 在自动打开的 Documents 选项卡中上传将用于配置技能的文档。
- 上传图像后,转到 Fields 选项卡,通过创建和设置将使用该技能提取的字段,为技能配置字段结构。在 Reference 部分对文档进行标注。
- 转到 Activities 选项卡。创建一个 Named Entities (NER) 活动,并指定用于存储提取出的命名实体的字段。将命名实体映射到选定的字段。
- 如果有包含地址的字段并且需要将地址拆分为各个组成部分,则创建一个 Address Parsing 活动,并指定用于存储提取出的地址组成部分的字段。将地址组成部分映射到选定的字段。
- 单击 Test Skill Using Selected Documents 测试技能,并分析获得的结果。
- 当测试结果令人满意后,发布该技能。
假设您要提取的命名实体始终位于同一段落中。例如,如果您需要从作为买卖协议一部分的“购买价格”段落中提取金额,首先使用 Segmentation 活动提取目标段落,然后使用 Named Entities (NER) 活动提取目标字段。目标数据应是 Named Entities (NER) 或 Address Parsing 活动支持的命名实体,例如姓名、地址和日期。
您也可以使用 Fast Learning 和 Extraction Rules 活动来提取目标段落。为此,先确保该文本块已由 Fast Learning 或 Extraction Rules 活动正确提取,然后再创建并配置 Named Entities (NER) 或 Address Parsing 活动。
如果目标段落还包含同类型但不需要提取的其他命名实体,请参阅以下用例。
预训练活动是很好的起点,因为它们易于配置且不需要训练。不过,在您的文档上训练的神经网络可能会提供更高的提取精度。如果您拥有大规模的文档集,也可以尝试下一个场景,然后选择在您的文档上表现更好的方案。
- 打开 Advanced Designer。在起始页点击 Create Document Skill 创建一个新的技能。
- 在打开的 Documents 选项卡中上传将用于配置技能的文档。
- 上传图像后,转到 Fields 选项卡,通过创建和配置将由该技能提取的字段,为技能设置字段结构。在 Reference 部分对文档进行标注。
- 转到 Activities 选项卡,创建一个 Segmentation 活动,并指定用于存储目标段落的字段。
- 打开 Activity Editor,配置并训练 Segmentation 活动。
- 返回 Activities 选项卡,创建一个 Named Entities (NER) 活动,并指定源字段以及用于存储提取出的命名实体的字段。将命名实体映射到选定的字段。
- 如果您有包含地址的字段,并希望将地址拆分为各个组成部分,创建一个 Address Parsing 活动,并指定源字段以及用于存储提取出的地址组成部分的字段。将地址组成部分映射到选定的字段。
- 点击 Test Skill Using Selected Documents 测试您的技能,并分析得到的结果。
- 当测试结果令人满意时,发布您的技能。
假设你需要从一个段落中提取其中一方组织的名称,而该段落包含协议双方的信息。此外,你还需要提取一个电子邮件地址。在这种情况下,你应首先使用 Segmentation 活动来提取目标段落。但在这里不适合使用 Named Entities (NER) 活动,因为它会从目标段落中提取两个组织的名称,而且它并未经过训练来提取电子邮件地址。在这种情况下,请改用用于 NLP 的 Deep Learning 活动。
你还可以将这一方案用于提高预训练命名实体的提取准确率。你可以同时测试预训练活动和 Deep Learning 活动,然后选择在你的文档上表现更好的那个。
请注意,使用此活动需要大量文档 (最少需要 50 份文档,但我们建议至少准备 150 份文档) 。你也可以测试两种活动 (Named Entities (NER) 和用于 NLP 的 Deep Learning) ,然后选择在你的文档上表现更好的活动。
- 打开 Advanced Designer。在起始页单击 Create Document Skill 创建新的技能。
- 在打开的 Documents 选项卡中上传用于配置技能的文档。
- 上传文档/图像后,转到 Fields 选项卡,为该技能设置字段结构,创建并配置将通过该技能提取的字段。在 Reference 部分中为文档添加标签。
- 转到 Activities 选项卡,创建一个 Segmentation 活动,并指定用于存储目标段落的字段。
- 打开 Activity Editor,配置并训练 Segmentation 活动。
- 返回 Activities 选项卡,创建一个 Deep Learning for NLP 活动,并指定应由该活动提取的字段。
- 打开 Activity Editor 来配置并训练 Deep Learning 活动。
- 单击 Test Skill Using Selected Documents 测试技能,并分析获得的结果。
- 当测试结果达到预期时,发布技能。