オンライン学習のしくみ
- 新しいドキュメントを収集し、学習用セットまたはテスト用セットに振り分けます。
- 学習用セットを使用して学習セッションを開始します。
- Skill をテストします。
ステップ 1. ドキュメントの収集方法
-
Online Learning は、手動確認オペレーターから最初の修正済みドキュメントを受け取るとすぐにドキュメントの収集を開始します。
- Document skill の場合、これは少なくとも 1 つの field の領域が修正された最初のドキュメントです。
- 分類スキルの場合、これは種類が変更された最初のドキュメントです。
-
最初のドキュメントが収集された後、次のドキュメントが収集されます。
- 手動確認を通過したすべてのドキュメント。
- 手動確認を通過していない一部のドキュメント (これらのドキュメントの比率は、学習用セットとテスト用セットを合わせたすべてのドキュメントの 33% を超えることはありません) 。
-
新しいドキュメントが収集されると、それらは学習用セットまたはテスト用セットのいずれかに配置されます。
- 学習用セット内のドキュメントの最大数は 10,000 です。テスト用セット内のドキュメントの最大数は 1,000 です。
- 学習用セット内のドキュメント数が 30 件に達するまでは、ドキュメントは学習用セットにのみ配置されます。この数に達すると、ドキュメントは学習用セットまたはテスト用セットのいずれかに配置されます。
- 両方のセットがいっぱいになるまでは、各新規ドキュメントは 80% の確率で学習用セットに、20% の確率でテスト用セットに配置されます。
- どちらか一方のセットがいっぱいになると、もう一方のセットもいっぱいになるまで、新しいドキュメントはそのもう一方のセットに配置されます。
- 両方のセットがいっぱいになっても、新しいドキュメントはどちらかのセットに配置され、最も古い既存のドキュメントと置き換えられます。
- 両方のセットがいっぱいの場合、各新規ドキュメントは 20% の確率でいずれかのセットに追加され、80% の確率で破棄されます。
- 両方のセットがいっぱいで、かつ破棄されなかった各新規ドキュメントは、80% の確率で学習用セットに、20% の確率でテスト用セットに配置され、それぞれのセット内で最も古い既存のドキュメントと置き換えられます。

ステップ 2. 学習セッションが開始されるタイミング
- Skill のバージョン公開後の最初の学習セッションは、ドキュメントセットに新規ドキュメントが全体の 10% 到達した時点で開始されます。たとえば、ドキュメントセットに合計 95 件ある場合、新規ドキュメントが 10 件追加されると新しい学習セッションが開始されます。
- 直近の学習セッションが成功し Skill が更新された場合は、最初のセッションと同じ条件で新しいセッションが開始されます。
- 直近の学習セッションが失敗し Skill が更新されなかった場合は、ドキュメントセットに新規ドキュメントが全体の 5% 到達した時点で新しい学習セッションが開始されます。たとえば、ドキュメントセットに合計 95 件ある場合、新規ドキュメントが 5 件追加されると新しい学習セッションが開始されます。
ステップ 3. Skill のテスト方法
- テストセットにドキュメントが 20 件以上ある場合、Skill はテストセットでテストされます。
- テストセットにドキュメントが 20 件未満しかない場合:
- Document skill は学習用セットとテストセットの両方でテストされます。
- 分類スキルでは、ドキュメントセット内のドキュメントが不足している場合 (各クラスのドキュメントが 5 件未満の場合) 、Skill は学習用セットとテストセットの両方でテストされます。十分なドキュメントがある場合は、精度の評価にクロスバリデーションを使用します。
