跳转到主要内容
用于处理非结构化文档的 Skill 只能在 Advanced Designer 中创建。此类 Skill 的文档处理流程将包含用于通过 NLP 提取数据的活动。 以下活动仅支持数量有限的语言。您可以在各自页面上查看每个活动支持的语言列表:
  • Segmentation activity
  • Deep Learning for NLP activity
  • Named Entities (NER) activity
  • Address Parsing activity

从整个文档中提取预训练的命名实体

假设你需要创建一个 Document skill,从非结构化文档(例如信件)中提取公司名称和地址。为提取这些实体,你可以配置 Named Entities (NER) 活动,用于识别并提取命名实体。若需要将地址拆分为街道、城市、州/省、国家、邮政编码等组成部分,并分别提取到不同字段中,请配置 Address Parsing 活动。 NER 活动流程

创建 Document Skill 的步骤

  1. 打开 Advanced Designer。在开始页点击 Create Document Skill 创建新的 Skill。
  2. 在打开的 Documents 选项卡中,上传用于配置该 Skill 的文档。
  3. 上传图像后,转到 Fields 选项卡,创建并配置由该 Skill 提取的 field,为该 Skill 设置字段结构。在 Reference 部分对文档进行标注。
  4. 转到 Activities 选项卡。创建 Named Entities (NER) 活动,并指定用于存储提取命名实体的字段。将命名实体映射到所选字段。
  5. 如果某个字段包含地址且希望将其拆分为各组成部分,创建 Address Parsing 活动,并指定用于存储提取地址组件的字段。将地址组件映射到所选字段。
  6. 点击 Test Skill Using Selected Documents 测试该 Skill,并分析结果。
  7. 当测试结果足够理想时,发布该 Skill。

从特定段落中提取预训练的命名实体

假设要提取的命名实体始终位于同一段落。例如,如果需要从销售与购买协议中的“购买价格”段落提取一笔金额,先使用 Segmentation 活动提取目标段落,再使用 Named Entities (NER) 活动提取目标字段。目标数据应是 Named Entities (NER) 或 Address Parsing 活动支持的命名实体,例如姓名、地址和日期。 你也可以使用 Fast Learning 和 Extraction Rules 活动提取目标段落。为此,先确保文本片段已由 Fast Learning 或 Extraction Rules 活动正确提取,然后创建并配置 Named Entities (NER) 或 Address Parsing 活动。 如果目标段落还包含同类型但不应提取的其他命名实体,请参阅以下用例 预训练活动是良好的起点,因为它们易于配置且不需要训练。不过,基于你的文档训练的神经网络可能带来更高的提取准确率。如果你拥有大量文档集,也可以尝试下一种方案,并选择在你的 documents 上表现更佳的那一个。 Segmentation with NER and Address Parsing

创建 Document Skill 的步骤

  1. 打开 Advanced Designer。在开始页面点击Create Document Skill创建新的 Skill。
  2. 在打开的 Documents 选项卡中,上传用于配置 Skill 的文档。
  3. 上传图像后,转到 Fields 选项卡,通过创建并配置将由该 Skill 提取的 field,为 Skill 设置字段结构。在Reference部分为文档添加标签。
  4. 转到 Activities 选项卡,创建 Segmentation 活动,并指定用于存储目标段落的字段。
  5. 打开Activity Editor,配置并训练 Segmentation 活动。
  6. 返回Activities选项卡,创建 Named Entities (NER) 活动,指定源字段及用于存储提取命名实体的字段。将命名实体映射到所选字段。
  7. 如果存在包含地址的字段且希望将地址拆分为组成部分,创建 Address Parsing 活动,指定源字段及用于存储提取出的地址组成部分的字段。将地址组成部分映射到所选字段。
  8. 点击Test Skill Using Selected Documents测试该 Skill,并分析结果。
  9. 当测试结果达到预期时,发布该 Skill。

提取自定义命名实体

假设你需要从一个同时包含协议双方信息的段落中,仅提取其中一方组织的名称。此外,你还需要提取一个电子邮件地址。在这种情况下,应先使用 Segmentation 活动提取目标段落。不过,不能使用 Named Entities (NER) 活动,因为它会从目标段落中提取两个组织的名称,而且并未针对邮箱提取进行训练。此时请改用用于 NLP 的 Deep Learning 活动。 你也可以将此方案用于提升预训练命名实体的提取准确性。可以同时测试预训练活动和 Deep Learning 活动,然后选择在你的文档上表现更好的那个。 请注意,使用此活动需要大量文档(最低 50 份,建议至少 150 份)。你也可以同时测试这两种活动(Named Entities (NER) 和 Deep Learning for NLP),然后选择在你的文档上表现更好的活动。 Segmentation with Deep Learning

创建 Document Skill 的步骤

  1. 打开 Advanced Designer。在开始页面点击 Create Document Skill 创建新的 Skill。
  2. 在自动打开的 Documents 选项卡中,上传用于配置 Skill 的文档。
  3. 上传图像后,转到 Fields 选项卡,通过创建并配置将由 Skill 提取的字段来为 Skill 建立字段结构。在 Reference 部分对文档进行标注。
  4. 转到 Activities 选项卡,创建 Segmentation 活动,并指定用于存储目标段落的字段。
  5. 打开 Activity Editor,配置并训练 Segmentation 活动。
  6. 返回 Activities 选项卡,创建 Deep Learning for NLP 活动,并指定应由该活动提取的字段。
  7. 打开 Activity Editor 配置并训练 Deep Learning 活动。
  8. 点击 Test Skill Using Selected Documents 测试 Skill,并分析获得的结果
  9. 当测试结果达到预期时,发布 Skill。