半構造化文書向けの Deep Learning activity は、ニューラルネットワークを使用して半構造化文書から field を抽出する、本番運用レベルの品質を備えた Skill を構築するために設計されています。
この activity では、複雑な構造 (たとえば、他のテーブル内で繰り返される構造であるネストされたテーブル) や、Text 以外の型の field は抽出できません。こうした構造を抽出するには、Extraction Rules activity を使用してください。
次のような場合は、このアクティビティをドキュメント処理フローに追加してください。
- 特定の文書タイプの複数の候補を処理するために Skill を使用する場合。
- Skill がまだ学習していない文書候補を処理する予定がある場合。たとえば、複数の銀行から送られてくるローン契約書 (異なる field 構造) から fields を抽出するように学習した Fast Learning activity を含む Document skill があるとします。この既存の Skill を使用して、Skill がまだ認識していない新しい銀行のローン契約書を処理する場合、抽出品質が十分でない可能性があります。抽出品質を向上させるには、Fast Learning activity の代わりに Deep Learning activity を使用できます。
Deep Learning は、畳み込みニューラルネットワーク (CNN) 、再帰型ニューラルネットワーク (RNN) 、および自然言語処理 (NLP) のトークンを組み合わせて使用します。この組み合わせにより、Deep Learning は画像パターン、文書の構造、field の内容、周囲のラベルを理解します。学習には大量の文書が必要ですが、まだ見たことのない新しい文書レイアウトにも対応できるため、抽出において真にテンプレート不要のアプローチを実現できます。これは、学習段階でレイアウトの網羅的なセットを用意できない文書に対応するための唯一の方法です。
最良の結果を得るには、できるだけ多くの文書に正しくラベル付けすることが不可欠です。トレーニングに使用するサンプル文書の数は、field 抽出の品質に大きく影響します。推奨されるサンプル文書数は次のとおりです。
- ばらつきの大きい文書の場合: 少なくとも 200~300 件のサンプル文書 (候補ごとに 2~3 件のサンプル文書) が必要です。
- ばらつきの小さい文書の場合: 最低 10 件のサンプル文書が必要です (候補ごとに 2~3 件のサンプル文書)。
最小要件は 10 件ですが、500 件を超えるラベル付け済み文書を用意し、処理対象とするすべての文書候補がトレーニングセット内でおおむね同数ずつ含まれるようにすることを推奨します (理想的には、各候補について少なくとも数件のサンプル) 。想定されるすべての候補を用意する必要はありませんが、テクノロジーがパターンを導き出し、まだ見たことのない候補にも一般化できるようにするには、十分に多様な文書を見る必要があります。たとえば請求書の場合、トレーニングセットに 500~1,000 の異なる仕入先が含まれ、それぞれについて 2~3 件のサンプル文書が含まれていれば、このテクノロジーは新しい仕入先に対しても十分に一般化できることが期待されます。Deep Learning は一般化しやすい傾向がありますが、文書の主要な候補、たとえば最も多くの請求書を発行する仕入先をトレーニングセットに含めることは有益です。
少ない文書数で学習し、よりシンプルなドキュメントセット向けに設計された Fast Learning activity とは異なり、Deep Learning activity の学習にはかなり長い時間がかかります。
ニューラルネットワークの学習は、反復的に行われるプロセスです。各反復はエポックと呼ばれます。エポックの開始時に、ドキュメントセットは学習用サブセットと検証用サブセットに分割されます。各エポックでは、学習用サブセット内のすべての文書が学習アルゴリズムにかけられます。続いて、検証用サブセットを使用してニューラルネットワークの性能が評価され、各 field とドキュメントセット全体の指標が更新されます。
詳細については、Deep Learning activity の設定を参照してください。