クラウドのSkill Designerだけでは対応しきれない半構造化文書セットには、Advanced Designerを使用します。たとえば、レイアウトのばらつきが多いセット、ルールベースの抽出が必要な外れ値を含むセット、または機械学習に十分な学習データがないセットなどです。Documentation Index
Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt
Use this file to discover all available pages before exploring further.
シナリオを選択する
| シナリオ | 使用するケース | 主なアクティビティ |
|---|---|---|
| 多様なドキュメントバリエーションがある | 新しいテンプレートが次々に現れる | Deep Learning + Fast Learning |
| ルールが必要な例外ケースがある | ほとんどのドキュメントバリエーションは ML で対応できるが、一部はルールが必要 | Classify + IF + Deep Learning + Extraction Rules |
| 学習データが限られている | Deep Learning を学習させるためのドキュメントが十分にない | Classify + バリエーションごとの Extraction Rules |
一般的なワークフロー
ドキュメントをアップロード
Documents タブで、Skill の設定に使用するドキュメントをアップロードします。分類を含むシナリオでは、分類器がバランスの取れた学習データを得られるよう、各候補に対してほぼ同数のドキュメントを追加します。
Activity を追加して設定
Activities タブで、シナリオに必要な activities (以下で説明) を追加します。各 Activity を Activity Editor で開き、設定と学習を行います。
テストして公開
Test Skill Using Selected Documents をクリックして結果を評価します。結果が十分に良好であれば、skill を公開します。
バリエーションが非常に多い文書
- Deep Learning は、未知のバリエーションにも対応できます。学習には、少なくとも100件のラベル付き文書が必要です。
- Fast Learning は、既知の特定テンプレートに対する精度を高めます。また、手動確認からの オンラインラーニング フィードバックループを通じて継続的に学習させることもできます。

ルールベースの抽出が必要な例外文書
- 候補が、文書上に会社名や住所が記載された異なる会社に由来する場合は、Classify By Company を使用します。たとえば、複数の銀行の bank statements などです。
- それ以外の場合は、Classify By Text and Image を使用します。このマルチモーダル分類器は、テキスト、layout、画像パターンを使って候補を識別します。

限られた学習データ

Deep Learning アクティビティ
多様な半構造化レイアウトに対応します。
Fast Learning アクティビティ
既知のテンプレートで、手動確認のフィードバックを活用して精度を高めます。
Extraction Rules アクティビティ
外れ値や少量のデータセット向けに、ルールベースの抽出を定義します。
Classify アクティビティ
抽出前に、文書の種類に応じてフローを分岐します。
