跳转到主要内容
在线学习在运行时进行。随着越来越多的文档被处理,系统会收集其中一部分,并将其加入该技能的训练集和测试集。技能随后会基于这些数据集进行实时改进。 在线学习适用于文档技能和分类技能。
注意: 在线学习不适用于用于处理结构化文档的技能。在这种情况下,收集文档并学习 选项将被禁用。文档仍会被收集,但不会执行学习。

在线学习的工作原理

注意: 本节假定您的流程技能中包含一个人工审核阶段,并且已启用 Online learning 功能。
Online learning 过程可概括如下:
  1. 收集新文档,并将其放入训练集或测试集。
  2. 使用训练集启动一次学习会话。
  3. 对技能进行测试。

步骤 1. 文档如何收集

文档将按如下方式收集:
  1. 在线学习在从人工审核员收到第一份已更正文档后,就会开始收集文档。
    • 对于文档技能,这指的是第一份至少有一个字段区域被更正的文档。
    • 对于分类技能,这指的是第一份类型被更改过的文档。
  2. 获取第一份文档之后,将按如下规则继续收集文档:
    • 所有经过人工审核的文档。
    • 部分未经过人工审核的文档(它们在训练集和测试集中文档总数中所占比例不会超过 33%)。
  3. 收集到的新文档会被放入训练集或测试集。
    • 训练集中的文档数量上限为 10,000,测试集中的文档数量上限为 1,000。
注意: 如果在在线学习开始收集新文档时,训练集中已经包含超过 10,000 份文档,则可能会超出这些限制。在这种情况下,添加到已超限集合中的每个新文档都将替换该集合中最早的现有文档。
  • 在训练集中的文档数量达到 30 之前,文档只会被放入训练集。一旦达到该数量,文档将被放入训练集或测试集。
  • 在两个集合都未满之前,每个新文档有 80% 的概率进入训练集,有 20% 的概率进入测试集。
  • 当其中一个集合已满时,新文档将被放入另一个集合,直到该集合也被填满。
  • 当两个集合都已满时,新文档仍然可以被放入任一集合,以替换其中最早的现有文档。
  • 当两个集合都已满时,每个新文档有 20% 的概率被放入其中一个集合,有 80% 的概率被丢弃。
  • 当两个集合都已满时,每个未被丢弃的新文档有 80% 的概率进入训练集,有 20% 的概率进入测试集,并替换相应集合中最早的现有文档。
Online Learning Process Scheme

步骤 2. 学习会话在何时启动

  • 如果这是技能版本发布后的首次学习会话,当文档集新增文档数量达到总数的 10% 时,会话将启动。例如,如果文档集中共有 95 份文档,当新增 10 份文档后,就会启动新的学习会话。
  • 如果上一次学习会话成功且技能已更新,则新的会话会在与第一次会话相同的条件下启动。
  • 如果上一次学习会话未成功且技能未更新,则当文档集新增文档数量达到总数的 5% 时,会启动新的学习会话。例如,如果文档集中共有 95 份文档,当新增 5 份文档后,就会启动新的学习会话。

步骤 3. 技能如何进行测试

当通过在线学习使准确率至少提升 1% 时,将会更新该技能。 技能的准确率将按以下方式进行测试:
  • 如果测试集中至少有 20 份文档,则在测试集上对技能进行测试。
  • 如果测试集中的文档少于 20 份:
    • 文档技能将在训练集和测试集上都进行测试。
    • 对于分类技能,如果文档集中的文档数量不足(如果每个类别少于 5 份文档),则将在训练集和测试集上都对技能进行测试。如果文档数量充足,将使用交叉验证来评估准确率。
之后,会收集更多文档,然后开始新的学习会话。
注意: 在线学习不会创建技能的新版本。只有在发布技能时,版本才会发生变化。请参阅发布技能