跳转到主要内容
用于处理非结构化文档的技能只能在 Advanced Designer 中创建。此类技能的文档处理流程将包含用于通过 NLP 提取数据的活动。 以下活动仅支持有限数量的语言。您可以在各活动对应的页面上找到每个活动支持的语言列表:
  • Segmentation 活动
  • Deep Learning for NLP 活动
  • Named Entities (NER) 活动
  • Address Parsing 活动

从整个文档中提取预训练命名实体

假设您需要创建一个文档技能,从非结构化文档(例如信件)中提取公司名称和地址。要提取这些实体,您可以配置一个 Named Entities (NER) 活动,该活动专门用于提取命名实体。如果需要将地址拆分为街道、城市、州/省、国家、邮政编码等组成部分,并分别提取到不同字段中,请配置一个 Address Parsing 活动。 NER 活动流程图

创建文档技能的步骤

  1. 打开 Advanced Designer。在开始页单击 Create Document Skill 创建一个新的技能。
  2. 在自动打开的 Documents 选项卡中上传将用于配置技能的文档。
  3. 上传图像后,转到 Fields 选项卡,通过创建和设置将使用该技能提取的字段,为技能配置字段结构。在 Reference 部分对文档进行标注。
  4. 转到 Activities 选项卡。创建一个 Named Entities (NER) 活动,并指定用于存储提取出的命名实体的字段。将命名实体映射到选定的字段。
  5. 如果有包含地址的字段并且需要将地址拆分为各个组成部分,则创建一个 Address Parsing 活动,并指定用于存储提取出的地址组成部分的字段。将地址组成部分映射到选定的字段。
  6. 单击 Test Skill Using Selected Documents 测试技能,并分析获得的结果。
  7. 当测试结果令人满意后,发布该技能。

从特定段落中提取预训练命名实体

假设您要提取的命名实体始终位于同一段落中。例如,如果您需要从作为买卖协议一部分的“购买价格”段落中提取金额,首先使用 Segmentation 活动提取目标段落,然后使用 Named Entities (NER) 活动提取目标字段。目标数据应是 Named Entities (NER) 或 Address Parsing 活动支持的命名实体,例如姓名、地址和日期。 您也可以使用 Fast Learning 和 Extraction Rules 活动来提取目标段落。为此,先确保该文本块已由 Fast Learning 或 Extraction Rules 活动正确提取,然后再创建并配置 Named Entities (NER) 或 Address Parsing 活动。 如果目标段落还包含同类型但不需要提取的其他命名实体,请参阅以下用例 预训练活动是很好的起点,因为它们易于配置且不需要训练。不过,在您的文档上训练的神经网络可能会提供更高的提取精度。如果您拥有大规模的文档集,也可以尝试下一个场景,然后选择在您的文档上表现更好的方案。 Segmentation with NER and Address Parsing

创建文档技能的步骤

  1. 打开 Advanced Designer。在起始页点击 Create Document Skill 创建一个新的技能。
  2. 在打开的 Documents 选项卡中上传将用于配置技能的文档。
  3. 上传图像后,转到 Fields 选项卡,通过创建和配置将由该技能提取的字段,为技能设置字段结构。在 Reference 部分对文档进行标注。
  4. 转到 Activities 选项卡,创建一个 Segmentation 活动,并指定用于存储目标段落的字段。
  5. 打开 Activity Editor,配置并训练 Segmentation 活动。
  6. 返回 Activities 选项卡,创建一个 Named Entities (NER) 活动,并指定源字段以及用于存储提取出的命名实体的字段。将命名实体映射到选定的字段。
  7. 如果您有包含地址的字段,并希望将地址拆分为各个组成部分,创建一个 Address Parsing 活动,并指定源字段以及用于存储提取出的地址组成部分的字段。将地址组成部分映射到选定的字段。
  8. 点击 Test Skill Using Selected Documents 测试您的技能,并分析得到的结果。
  9. 当测试结果令人满意时,发布您的技能。

提取自定义命名实体

假设你需要从一个段落中提取其中一方组织的名称,而该段落包含协议双方的信息。此外,你还需要提取一个电子邮件地址。在这种情况下,你应首先使用 Segmentation 活动来提取目标段落。但在这里不适合使用 Named Entities (NER) 活动,因为它会从目标段落中提取两个组织的名称,而且它并未经过训练来提取电子邮件地址。在这种情况下,请改用用于 NLP 的 Deep Learning 活动。 你还可以将这一方案用于提高预训练命名实体的提取准确率。你可以同时测试预训练活动和 Deep Learning 活动,然后选择在你的文档上表现更好的那个。 请注意,使用此活动需要大量文档(最少需要 50 份文档,但我们建议至少准备 150 份文档)。你也可以测试两种活动(Named Entities (NER) 和用于 NLP 的 Deep Learning),然后选择在你的文档上表现更好的活动。 Segmentation with Deep Learning

创建文档技能的步骤

  1. 打开 Advanced Designer。在起始页单击 Create Document Skill 创建新的技能。
  2. 在打开的 Documents 选项卡中上传用于配置技能的文档。
  3. 上传文档/图像后,转到 Fields 选项卡,为该技能设置字段结构,创建并配置将通过该技能提取的字段。在 Reference 部分中为文档添加标签。
  4. 转到 Activities 选项卡,创建一个 Segmentation 活动,并指定用于存储目标段落的字段。
  5. 打开 Activity Editor,配置并训练 Segmentation 活动。
  6. 返回 Activities 选项卡,创建一个 Deep Learning for NLP 活动,并指定应由该活动提取的字段。
  7. 打开 Activity Editor 来配置并训练 Deep Learning 活动。
  8. 单击 Test Skill Using Selected Documents 测试技能,并分析获得的结果
  9. 当测试结果达到预期时,发布技能。