メインコンテンツへスキップ

Documentation Index

Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt

Use this file to discover all available pages before exploring further.

クラウドのSkill Designerだけでは対応しきれない半構造化文書セットには、Advanced Designerを使用します。たとえば、レイアウトのばらつきが多いセット、ルールベースの抽出が必要な外れ値を含むセット、または機械学習に十分な学習データがないセットなどです。

シナリオを選択する

シナリオ使用するケース主なアクティビティ
多様なドキュメントバリエーションがある新しいテンプレートが次々に現れるDeep Learning + Fast Learning
ルールが必要な例外ケースがあるほとんどのドキュメントバリエーションは ML で対応できるが、一部はルールが必要Classify + IF + Deep Learning + Extraction Rules
学習データが限られているDeep Learning を学習させるためのドキュメントが十分にないClassify + バリエーションごとの Extraction Rules
以下の各シナリオは同じパターンに従います。異なるのは、処理フローに追加するアクティビティだけです。

一般的なワークフロー

1

Document skill を作成

Advanced Designer を開き、スタート ページで Create Document Skill をクリックします。
2

ドキュメントをアップロード

Documents タブで、Skill の設定に使用するドキュメントをアップロードします。分類を含むシナリオでは、分類器がバランスの取れた学習データを得られるよう、各候補に対してほぼ同数のドキュメントを追加します。
3

field を定義してラベル付け

Fields タブで、Skill が抽出する field を作成して設定します。Reference セクションでドキュメントにラベル付けします。
4

Activity を追加して設定

Activities タブで、シナリオに必要な activities (以下で説明) を追加します。各 Activity を Activity Editor で開き、設定と学習を行います。
5

テストして公開

Test Skill Using Selected Documents をクリックして結果を評価します。結果が十分に良好であれば、skill を公開します

バリエーションが非常に多い文書

文書の種類は同じでも、レイアウトに大きなばらつきがある場合は、このシナリオを使用します。たとえば、多数の仕入先から届く請求書で、新しいテンプレートが次々に追加されるようなケースです。 Deep Learning アクティビティFast Learning アクティビティ を組み合わせて使用します。
  • Deep Learning は、未知のバリエーションにも対応できます。学習には、少なくとも100件のラベル付き文書が必要です。
  • Fast Learning は、既知の特定テンプレートに対する精度を高めます。また、手動確認からの オンラインラーニング フィードバックループを通じて継続的に学習させることもできます。
Deep Learning に続いて Fast Learning を実行するドキュメント処理フロー

ルールベースの抽出が必要な例外文書

ほとんどの候補は Deep Learning + Fast Learning で対応できますが、一部の文書には入れ子のテーブルなど、機械学習では適切に捉えきれない特徴がある場合に、このシナリオを使用します。 Classify アクティビティで例外文書を切り分けた後、IF アクティビティでフローを分岐します。
  • 候補が、文書上に会社名や住所が記載された異なる会社に由来する場合は、Classify By Company を使用します。たとえば、複数の銀行の bank statements などです。
  • それ以外の場合は、Classify By Text and Image を使用します。このマルチモーダル分類器は、テキスト、layout、画像パターンを使って候補を識別します。
分岐後、例外文書は、その文書向けに調整した Extraction Rules アクティビティ に送ります。
Classify、IF、Deep Learning、Extraction Rules の各アクティビティを含むドキュメント処理フロー

限られた学習データ

Deep Learning アクティビティ をトレーニングするのに十分な文書はないものの、抽出ルールを記述できるだけの業務知識がある場合は、このシナリオを使用します。たとえば、年度ごとに異なる税務フォームなどが該当します。 文書を Classify アクティビティ (Classify By Company または Classify By Text and Image) で分類し、その後、各候補をそれぞれ専用の Extraction Rules アクティビティ に振り分けます。必要に応じて Fast Learning アクティビティ を追加すると、Vantage が時間の経過とともに Skill を改善できます。
Classify アクティビティから複数の Extraction Rules アクティビティに分岐するドキュメント処理フロー

Deep Learning アクティビティ

多様な半構造化レイアウトに対応します。

Fast Learning アクティビティ

既知のテンプレートで、手動確認のフィードバックを活用して精度を高めます。

Extraction Rules アクティビティ

外れ値や少量のデータセット向けに、ルールベースの抽出を定義します。

Classify アクティビティ

抽出前に、文書の種類に応じてフローを分岐します。