メインコンテンツへスキップ
オンライン学習は実行時に行われます。処理されるドキュメントが増えるにつれて、その一部がシステムによって収集され、Skill の学習用セットおよびテストセットに追加されます。その後、Skill はこれらのセットを使ってリアルタイムに精度を向上させていきます。 オンライン学習は Document skills と Classification skills で利用できます。 オンライン学習は、構造化ドキュメントを処理するように設計された Skill では利用できません。この場合、Collect documents and learn オプションは無効になります。ドキュメントは引き続き収集されますが、学習は行われません。

オンライン学習のしくみ

このセクションは、Process skill に手動確認ステージが含まれ、Online learning 機能が有効になっていることを前提としています。 Online learning のプロセスは次のとおりです。
  1. 新しいドキュメントを収集し、学習用セットまたはテスト用セットに振り分けます。
  2. 学習用セットを使用して学習セッションを開始します。
  3. Skill をテストします。

ステップ 1. ドキュメントの収集方法

ドキュメントは次のように収集されます。
  1. Online Learning は、手動確認オペレーターから最初の修正済みドキュメントを受け取るとすぐにドキュメントの収集を開始します。
    • Document skill の場合、これは少なくとも 1 つの field の領域が修正された最初のドキュメントです。
    • 分類スキルの場合、これは種類が変更された最初のドキュメントです。
  2. 最初のドキュメントが収集された後、次のドキュメントが収集されます。
    • 手動確認を通過したすべてのドキュメント。
    • 手動確認を通過していない一部のドキュメント (これらのドキュメントの比率は、学習用セットとテスト用セットを合わせたすべてのドキュメントの 33% を超えることはありません) 。
  3. 新しいドキュメントが収集されると、それらは学習用セットまたはテスト用セットのいずれかに配置されます。
    • 学習用セット内のドキュメントの最大数は 10,000 です。テスト用セット内のドキュメントの最大数は 1,000 です。
    Online learning が新しいドキュメントの収集を開始した時点で、すでに学習用セットに 10,000 件を超えるドキュメントが含まれている場合には、これらの上限を超える場合があります。この場合、上限を超えているセットに新たに追加される各ドキュメントは、そのセット内で最も古い既存のドキュメントと置き換えられます。
  • 学習用セット内のドキュメント数が 30 件に達するまでは、ドキュメントは学習用セットにのみ配置されます。この数に達すると、ドキュメントは学習用セットまたはテスト用セットのいずれかに配置されます。
  • 両方のセットがいっぱいになるまでは、各新規ドキュメントは 80% の確率で学習用セットに、20% の確率でテスト用セットに配置されます。
  • どちらか一方のセットがいっぱいになると、もう一方のセットもいっぱいになるまで、新しいドキュメントはそのもう一方のセットに配置されます。
  • 両方のセットがいっぱいになっても、新しいドキュメントはどちらかのセットに配置され、最も古い既存のドキュメントと置き換えられます。
  • 両方のセットがいっぱいの場合、各新規ドキュメントは 20% の確率でいずれかのセットに追加され、80% の確率で破棄されます。
  • 両方のセットがいっぱいで、かつ破棄されなかった各新規ドキュメントは、80% の確率で学習用セットに、20% の確率でテスト用セットに配置され、それぞれのセット内で最も古い既存のドキュメントと置き換えられます。
Online Learning プロセスの概略図

ステップ 2. 学習セッションが開始されるタイミング

  • Skill のバージョン公開後の最初の学習セッションは、ドキュメントセットに新規ドキュメントが全体の 10% 到達した時点で開始されます。たとえば、ドキュメントセットに合計 95 件ある場合、新規ドキュメントが 10 件追加されると新しい学習セッションが開始されます。
  • 直近の学習セッションが成功し Skill が更新された場合は、最初のセッションと同じ条件で新しいセッションが開始されます。
  • 直近の学習セッションが失敗し Skill が更新されなかった場合は、ドキュメントセットに新規ドキュメントが全体の 5% 到達した時点で新しい学習セッションが開始されます。たとえば、ドキュメントセットに合計 95 件ある場合、新規ドキュメントが 5 件追加されると新しい学習セッションが開始されます。

ステップ 3. Skill のテスト方法

オンライン学習により精度が少なくとも 1% 向上した場合、Skill は更新されます。 Skill の精度は次のようにテストされます。
  • テストセットにドキュメントが 20 件以上ある場合、Skill はテストセットでテストされます。
  • テストセットにドキュメントが 20 件未満しかない場合:
    • Document skill は学習用セットとテストセットの両方でテストされます。
    • 分類スキルでは、ドキュメントセット内のドキュメントが不足している場合 (各クラスのドキュメントが 5 件未満の場合) 、Skill は学習用セットとテストセットの両方でテストされます。十分なドキュメントがある場合は、精度の評価にクロスバリデーションを使用します。
その後、さらにドキュメントを収集し、新しい学習セッションを開始します。 オンライン学習では Skill の新しいバージョンは作成されません。バージョンが変わるのは Skill を発行した場合のみです。詳しくは Publishing a skill を参照してください。