Advanced Designerで半構造化文書を処理する

クラウドのSkill Designerだけでは対応しきれない半構造化文書セットには、Advanced Designerを使用します。たとえば、レイアウトのばらつきが多いセット、ルールベースの抽出が必要な外れ値を含むセット、または機械学習に十分な学習データがないセットなどです。

シナリオを選択する

シナリオ	使用するケース	主なアクティビティ
多様なドキュメントバリエーションがある	新しいテンプレートが次々に現れる	Deep Learning + Fast Learning
ルールが必要な例外ケースがある	ほとんどのドキュメントバリエーションは ML で対応できるが、一部はルールが必要	Classify + IF + Deep Learning + Extraction Rules
学習データが限られている	Deep Learning を学習させるためのドキュメントが十分にない	Classify + バリエーションごとの Extraction Rules

以下の各シナリオは同じパターンに従います。異なるのは、処理フローに追加するアクティビティだけです。

一般的なワークフロー

Document skill を作成

Advanced Designer を開き、スタートページで Create Document Skill をクリックします。

ドキュメントをアップロード

Documents タブで、Skill の設定に使用するドキュメントをアップロードします。分類を含むシナリオでは、分類器がバランスの取れた学習データを得られるよう、各候補に対してほぼ同数のドキュメントを追加します。

field を定義してラベル付け

Fields タブで、Skill が抽出する field を作成して設定します。Reference セクションでドキュメントにラベル付けします。

Activity を追加して設定

Activities タブで、シナリオに必要な activities (以下で説明) を追加します。各 Activity を Activity Editor で開き、設定と学習を行います。

テストして公開

Test Skill Using Selected Documents をクリックして結果を評価します。結果が十分に良好であれば、skill を公開します。

バリエーションが非常に多い文書

文書の種類は同じでも、レイアウトに大きなばらつきがある場合は、このシナリオを使用します。たとえば、多数の仕入先から届く請求書で、新しいテンプレートが次々に追加されるようなケースです。 Deep Learning アクティビティと Fast Learning アクティビティを組み合わせて使用します。

Deep Learning は、未知のバリエーションにも対応できます。学習には、少なくとも100件のラベル付き文書が必要です。
Fast Learning は、既知の特定テンプレートに対する精度を高めます。また、手動確認からのオンラインラーニングフィードバックループを通じて継続的に学習させることもできます。

Deep Learning に続いて Fast Learning を実行するドキュメント処理フロー

ルールベースの抽出が必要な例外文書

ほとんどの候補は Deep Learning + Fast Learning で対応できますが、一部の文書には入れ子のテーブルなど、機械学習では適切に捉えきれない特徴がある場合に、このシナリオを使用します。 Classify アクティビティで例外文書を切り分けた後、IF アクティビティでフローを分岐します。

候補が、文書上に会社名や住所が記載された異なる会社に由来する場合は、Classify By Company を使用します。たとえば、複数の銀行の bank statements などです。
それ以外の場合は、Classify By Text and Image を使用します。このマルチモーダル分類器は、テキスト、layout、画像パターンを使って候補を識別します。

分岐後、例外文書は、その文書向けに調整した Extraction Rules アクティビティに送ります。

Classify、IF、Deep Learning、Extraction Rules の各アクティビティを含むドキュメント処理フロー

限られた学習データ

Deep Learning アクティビティをトレーニングするのに十分な文書はないものの、抽出ルールを記述できるだけの業務知識がある場合は、このシナリオを使用します。たとえば、年度ごとに異なる税務フォームなどが該当します。文書を Classify アクティビティ (Classify By Company または Classify By Text and Image) で分類し、その後、各候補をそれぞれ専用の Extraction Rules アクティビティに振り分けます。必要に応じて Fast Learning アクティビティを追加すると、Vantage が時間の経過とともに Skill を改善できます。

Classify アクティビティから複数の Extraction Rules アクティビティに分岐するドキュメント処理フロー

​シナリオを選択する

​一般的なワークフロー

​バリエーションが非常に多い文書

​ルールベースの抽出が必要な例外文書

​限られた学習データ

​関連アクティビティ

シナリオを選択する

一般的なワークフロー

バリエーションが非常に多い文書

ルールベースの抽出が必要な例外文書

限られた学習データ

関連アクティビティ