跳转到主要内容
注意: 您可以使用单独的文档集来训练您的深度学习活动。为此,请在技能名称旁边的下拉列表中选择深度学习活动。然后,在 Upload 按钮左侧的下拉列表中,选择所需的文档集,或单击 Create Set… 创建新的文档集。您可以在此选项卡中按照 Documents 部分中的说明上传、删除和旋转文档。

设置步骤

要配置 Deep Learning 活动:

步骤 1。添加 Activity

Activities 选项卡中,将用于半结构化文档的 Deep Learning activity 添加到文档处理流程中。

步骤 2:选择字段

Activity Properties 窗格中,选择要通过此活动训练的字段。 您可以从以下选项中选择:
  • 最多 50 个类型为 Text 的字段,不受其嵌套级别限制。
  • 一个包含最多 32 列的表格。
如果您需要训练更多字段,可以添加更多 Deep Learning 活动,并使用它们来选择额外的字段。例如,如果您需要训练多个文本字段和一个表格,请创建两个 Deep Learning 活动。
注意: 以下字段无法被训练:
  • 类型不是 Text 的字段
  • 包含多个项目的组、表格,或嵌套在包含多个项目的组中的多项目文本字段
  • 列数超过 32 列的表格
对于此类字段,您需要使用其他活动来设置其提取,例如 Extraction Rules 活动。

步骤 3:标注文档

单击 Activity Editor 并转到 Fields 选项卡来标注文档。在 Activity Editor 中的标注过程与常规文档标注过程相同。 请使用以下指南来确定训练文档集的规模:
  • 如果训练集仅包含最低要求的 10 份文档,您可以开始深度学习训练,但建议上传更多文档以获得更高的准确率。
  • 如果训练集仅包含 10 份文档,您仍然可以开始训练模型。但 Advanced Designer 会显示一条警告,建议您添加超过 500 份已标注文档以获得最佳训练效果。
  • 如果训练集包含 500 到 10,000 份文档,您可以立即开始训练该 Activity。建议训练集中文档数量在此范围内。
  • 如果训练集包含超过 10,000 份文档,Advanced Designer 会显示一条警告,提示该技能可能会变得不稳定。

步骤 4。训练 Activity

上传并标注完文档后,点击 Train Activity 按钮。

步骤 5. 监控训练进度

切换到 Results 选项卡以评估训练进度。如有必要,请调整训练时长或停止训练。 如需了解更多信息,请参阅监控和调整活动训练

训练完成后的步骤

活动训练完成后,将会自动开始活动测试。如果您停止训练,系统会提示您手动开始测试该活动。 测试完成后,请在结果选项卡的活动测试结果部分分析字段提取结果。该活动的统计数据与Results 选项卡上显示的该技能的总体统计数据完全相同。如果您对字段提取质量不满意,可以执行以下操作:
  • 向训练集添加更多文档并继续训练过程。到目前为止获得的训练结果将被保留,神经网络会在此基础上使用更新后的文档集进行额外训练。
  • 调整标注并重新开始训练。到目前为止获得的训练结果将被丢弃,神经网络将从头开始训练。
  • 创建一个包含 Extraction Rules 活动的 Hypothesis Filtering 容器,以便为 Deep Learning 活动的输出设置条件。
该活动只能使用具有已确认标注的文档进行训练和测试。如果参考标注是基于预测标注自动生成的,并且您未在文档上下文菜单中使用相应选项将预测标注复制到参考标注,则该文档的标注为未确认。您可以在文档选项卡上检查每个文档的标注状态。要确认文档的标注,您需要在字段选项卡中对其进行审核。
注意: 从 Advanced Designer v. 2.3.1 开始,Deep Learning 活动的字段数量限制已发生变化。如果您的技能中使用的已训练 Deep Learning 活动提取的字段数超过 50,您仍然可以继续使用该技能处理文档。但是,当您打开此类技能进行编辑时,现有的 Deep Learning 活动将被拆分为多个 Deep Learning 活动,您可能需要重新训练它们。您还需要在文档处理工作流中重新配置这些活动的路由。