跳转到主要内容
Deep Learning for NLP 活动用于训练技能,使其能够使用自然语言处理(NLP)技术从非结构化文档中提取字段。 Deep Learning 活动仅能应用于已由其他活动预先提取出的字段。例如,您可以使用 Segmentation 活动提取一个文本段落,然后再设置 Deep Learning 活动,从该段落中提取字段。
注意: 此活动仅支持类型为 Text 的字段。

训练要求

由于深度学习任务是通过参考标注进行训练的,因此必须在所有文档图像上正确标明字段的位置。训练集中标注文档的数量越多,字段提取的质量就越高。推荐的样本文档数量如下:
  • 对于高差异度的文档,需要至少 150 份样本文档(每个变体 2–3 份样本文档)。
  • 对于低差异度的文档,我们可以从 1 份样本文档开始训练,但每个变体至少需要 2–3 份样本文档。

使用单独的文档集

您可以使用单独的文档集来训练 Deep Learning 活动。为此,请在技能名称旁边的下拉列表中选择 Deep Learning 活动。然后,在 Upload 按钮左侧的下拉列表中,选择所需的文档集,或单击 Create Set… 来创建一个新的文档集。您可以在此选项卡中上传、删除和旋转文档,具体操作如 Documents 部分所述。

支持的语言

支持的语言:英语、法语、德语、日语、俄语、西班牙语、意大利语、葡萄牙语(标准)和荷兰语。

设置深度学习活动

要设置深度学习活动,请按照以下步骤操作:
  1. Activities 选项卡上,将深度学习活动添加到文档处理流程中。请注意,该深度学习活动应放在提取其源字段的活动之后。
  2. Activity Properties 面板中使用 Field 下拉列表,选择与要从中提取字段的非结构化文本片段相对应的源字段。
  3. 选择应从源字段中提取的字段。您可以选择与源字段处于同一嵌套级别或位于其下一层级的字段。
  4. 单击 Activity Editor,转到 Fields 选项卡,通过为应从源字段中提取的字段指定区域来对文档进行标注。Activity Editor 中的标注过程与常规文档标注过程完全相同,唯一的例外是:要由深度学习活动提取的字段必须位于源字段的区域之内。
请使用以下指南来确定文档集的大小:
  • 用于 NLP 的深度学习活动可以从 1 个示例文档开始,但每个变体至少需要 2–3 个示例文档。
  • 如果训练集包含 1 到 150 个文档,则可以开始训练活动,但 Advanced Designer 会显示一条警告,内容为“我们建议至少添加 150 个文档”。
  • 如果训练集包含 150 到 10,000 个文档,则可以立即开始训练活动。这是训练集中推荐的文档数量范围。
  • 如果训练集包含超过 10,000 个文档,Advanced Designer 会显示一条警告,提示该技能可能变得不稳定。
  1. 单击 Train Activity 以训练该活动。
  2. 活动训练完成后,将自动开始活动测试。测试完成后,导航到 Results 选项卡并分析该活动的字段提取结果。Results 选项卡中显示的统计信息与在 Results 选项卡上显示的技能通用统计信息相同。如有需要,请对标注进行必要的更改并重新训练该活动。
活动只能使用具有已确认标注的文档进行训练和测试。如果参考标注是基于预测标注自动生成的,且您未在文档上下文菜单中使用相应选项将预测标注复制到参考标注,则该文档的标注处于未确认状态。您可以在 Documents 选项卡上检查每个文档的标注状态。要确认某个文档的标注,您应在 Fields 选项卡上对其进行查看和检查。