メインコンテンツへスキップ
オンラインラーニングは実行時に行われます。文書の処理が進むにつれて、一部はプログラムによって収集され、Skill の学習用セットとテスト用セットに追加されます。Skill はこれらのセットを用いてリアルタイムに精度を向上させます。 オンラインラーニングは Document skill と 分類スキル で利用できます。
注記: オンラインラーニングは既定で無効です。この機能を有効化する方法については、Enabling Online Learningを参照してください。

オンライン学習のしくみ

注記: このセクションは、Process skill に手動確認ステージが含まれ、Online learning 機能が有効になっていることを前提としています。
Online learning のプロセスは次のとおりです。
  1. 新しいドキュメントを収集し、学習用セットまたはテスト用セットに振り分けます。
  2. 学習用セットを使用して学習セッションを開始します。
  3. Skill をテストします。

ステップ 1. ドキュメントはどのように収集されるか

ドキュメントは次のように収集されます。
  1. Online learning は、手動確認オペレーターから最初の修正済みドキュメントを受け取るとすぐに収集を開始します。
    • Document skill の場合、少なくとも 1 つの field の領域が修正された最初のドキュメントが対象となります。
    • 分類スキル の場合、タイプが変更された最初のドキュメントが対象となります。
  2. 最初のドキュメントが取得された後、以下のドキュメントが収集されます。
    • 手動確認を通過したすべてのドキュメント。
    • 手動確認を通過していない一部のドキュメント(その割合は、学習用セットとテストセットを合わせた全ドキュメント数の 33% を超えません)。
  3. 新しいドキュメントが収集されると、学習用セットまたはテストセットのいずれかに振り分けられます。
    • 学習用セットの最大ドキュメント数は 10,000、テストセットの最大ドキュメント数は 1,000 です。
注: Online learning が新しいドキュメントの収集を開始した時点で、学習用セットにすでに 10,000 を超えるドキュメントが含まれている場合、これらの上限を超過することがあります。この場合、過剰なセットに追加される各新規ドキュメントは、そのセット内の最も古い既存ドキュメントと置き換えられます。
  • 学習用セット内のドキュメント数が 30 に達するまでは、ドキュメントは学習用セットのみに配置されます。この数に達すると、ドキュメントは学習用セットまたはテストセットのいずれかに配置されます。
  • 両方のセットが満杯になるまでは、各新規ドキュメントは学習用セットに入る確率が 80%、テストセットに入る確率が 20% です。
  • いずれかのセットが満杯になった場合、もう一方のセットが満杯になるまで新規ドキュメントはそちらに配置されます。
  • 両方のセットが満杯の場合でも、新規ドキュメントはどちらかのセットに配置され、最も古い既存ドキュメントと置き換えられることがあります。
  • 両方のセットが満杯の場合、各新規ドキュメントは、いずれかのセットに入る確率が 20%、破棄される確率が 80% です。
  • 両方のセットが満杯の場合、破棄されなかった各新規ドキュメントは、学習用セットに入る確率が 80%、テストセットに入る確率が 20% で、いずれかのセット内の最も古い既存ドキュメントと置き換えられます。
Online Learning Process Scheme

ステップ 2. 学習セッションが開始されるタイミング

  • Skill のバージョン公開後の最初の学習セッションは、ドキュメントセットに新規ドキュメントが全体の 10% 到達した時点で開始されます。たとえば、ドキュメントセットに合計 95 件ある場合、新規ドキュメントが 10 件追加されると新しい学習セッションが開始されます。
  • 直近の学習セッションが成功し Skill が更新された場合は、最初のセッションと同じ条件で新しいセッションが開始されます。
  • 直近の学習セッションが失敗し Skill が更新されなかった場合は、ドキュメントセットに新規ドキュメントが全体の 5% 到達した時点で新しい学習セッションが開始されます。たとえば、ドキュメントセットに合計 95 件ある場合、新規ドキュメントが 5 件追加されると新しい学習セッションが開始されます。

ステップ 3. Skill のテスト方法

オンライン学習によって精度が少なくとも 1% 向上した場合、Skill は更新されます。 Skill の精度は次の方法で検証されます。
  • テストセットに 20 件以上のドキュメントがある場合、Skill はテストセットで検証されます。
  • テストセットに 20 件未満のドキュメントしかない場合:
    • Document skill は学習セットとテストセットの両方で検証されます。
    • 分類スキルについて、ドキュメントセット内のドキュメント数が十分でない場合(各クラスに 5 件未満のドキュメントしかない場合)、Skill は学習セットとテストセットの両方で検証されます。ドキュメント数が十分な場合は、精度の評価に交差検証を使用します。
その後、さらにドキュメントを収集し、新しい学習セッションを開始します。
注意: オンライン学習では Skill の新しいバージョンは作成されません。バージョンが変わるのは、Skill を公開したときのみです。詳しくは、Publishing a skill を参照してください。