跳转到主要内容
在线学习 在运行时进行。随着处理的文档越来越多,程序会收集其中一部分并加入该 Skill 的训练集和测试集,Skill 会基于这些集合实时优化。 在线学习 适用于 Document skill 和 Classification skill。
注意: 默认情况下,在线学习 处于禁用状态。有关如何启用此功能的信息,请参见 启用在线学习

在线学习的工作方式

注意: 本节假定你的 Process 技能包含一个人工校验阶段,并且已启用 Online learning 功能。
Online learning 流程可概括如下:
  1. 收集新文档,并将其归入训练集或测试集。
  2. 使用训练集启动学习会话。
  3. 测试该 Skill。

步骤 1. 文档如何收集

文档将按如下方式收集:
  1. **在线学习(Online learning)**在从人工校验人员收到第一份已更正的文档后即开始收集文档。
    • 对于 Document skill,指第一份至少有一个 field 区域被更正的文档。
    • 对于 分类 Skill,指第一份其类型被更改的文档。
  2. 获取第一份文档后,随后将收集:
    • 所有经过人工校验的文档。
    • 部分未经过人工校验的文档(其占比不超过训练集和测试集合并后总数的 33%)。
  3. 随着新文档的收集,它们将被放入训练集或测试集。
    • 训练集的文档数量上限为 10,000,测试集的文档数量上限为 1,000。
注意: 如果在**在线学习(Online learning)**开始收集新文档时,训练集已包含超过 10,000 份文档,则这些上限可能会被超出。在这种情况下,添加到已超限集合中的每个新文档都会替换该集合中最早的现有文档。
  • 在训练集中的文档数量达到 30 之前,文档将仅被放入训练集。达到该数量后,文档将被放入训练集或测试集。
  • 在两个集合都未满之前,每个新文档有 80% 的概率进入训练集,20% 的概率进入测试集。
  • 当其中一个集合已满时,新文档将被放入另一个集合,直到其也被填满。
  • 当两个集合都已满时,仍可将新文档放入任一集合,替换最早的现有文档。
  • 当两个集合都已满时,每个新文档有 20% 的概率进入某一集合,80% 的概率被丢弃。
  • 当两个集合都已满时,每个未被丢弃的新文档有 80% 的概率进入训练集、20% 的概率进入测试集,并替换相应集合中最早的现有文档。
Online Learning Process Scheme

步骤 2. 何时启动学习会话

  • 如果这是 Skill 版本发布后的首个学习会话,当文档集新增文档达到 10% 时将启动。例如,若文档集中共有 95 个文档,则在新增 10 个文档后会启动新的学习会话。
  • 如果上一次学习会话成功且已更新该 Skill,则新会话将按与首次会话相同的条件启动。
  • 如果上一次学习会话未成功且未更新该 Skill,则当文档集新增文档达到 5% 时将启动新的学习会话。例如,若文档集中共有 95 个文档,则在新增 5 个文档后会启动新的学习会话。

步骤 3. Skill 的测试方式

在线学习使准确率至少提升 1% 时,Skill 将被更新。 Skill 的准确率将按以下方式进行测试:
  • 如果测试集中至少有 20 个文档,Skill 将在测试集上进行测试。
  • 如果测试集中的文档少于 20 个:
    • 对于 Document skill,将同时在训练集和测试集上进行测试。
    • 对于 分类 Skill,如果文档集中的文档数量不足(即每个类别少于 5 个文档),将同时在训练集和测试集上进行测试。若文档数量充足,将使用交叉验证评估准确率。
之后,将收集更多文档并开始新的学习会话。
注意: 在线学习不会创建 Skill 的新版本。仅在发布 Skill 时才会发生版本变更。参见 发布 Skill