「混在」文書セット は、Advanced Designer では 2 つの意味で使われます。Documentation Index
Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt
Use this file to discover all available pages before exploring further.
- 半構造化文書と非構造化文書の両方 (異なる文書タイプ) を含む 1 つのセット。
- 構造が混在した 1 つの文書。たとえば、埋め込みテーブル、埋め込み field、タイトル、ヘッダー、またはフッターを含む非構造化の契約書です。
シナリオを選択
| シナリオ | 使用する場合 | 主要アクティビティ |
|---|---|---|
| 1つのセット内の半構造化文書 + 非構造化文書 | 両方が共有の出力fieldsを持つ1つの論理型に属する場合 | Classify + IF + Fast Learning + Segmentation + Deep Learning for NLP |
| fieldsが埋め込まれたテーブルセル | テーブルセル内から値を抽出する場合 (例: Closing Disclosure内の名前) | Fast Learning + NER (+ Address Parsing) |
| テーブル/タイトル/ヘッダー/フッターが埋め込まれた非構造化文書 | 主に非構造化文書で、一部に半構造化の要素を含む場合 | Segmentation + Extraction Rules |
一般的なワークフロー
Activity を追加して設定
Activities タブで、シナリオに応じた Activity (詳細は以下を参照) を追加します。各 Activity を Activity Editor で開き、設定して学習させます。
テストして公開
Test Skill Using Selected Documents をクリックして結果を評価します。結果が十分に良好であれば、Skill を公開します。
1 つのセット内の半構造化文書と非構造化文書
- 半構造化文書は Fast Learning アクティビティ で処理します。
- 非構造化文書は、Segmentation アクティビティ の後に Deep Learning for NLP activity を使用して処理します。

セルテキストにfieldsが埋め込まれたテーブルセル
- 氏名や組織名などの固有表現を抽出するには、固有表現 (NER) アクティビティ を使用します。
- 住所を構成要素に分解するには、Address Parsing activity を使用します。


Classify By Text and Image
テキストと視覚的特徴を組み合わせて文書を分類します。
Fast Learning アクティビティ
半構造化文書やテーブルセルからfieldsを抽出します。
Segmentation アクティビティ
非構造化fieldsを含む段落を切り出します。
Deep Learning for NLP アクティビティ
非構造化テキストから、カスタムエンティティや判別が難しいエンティティを抽出します。
固有表現(NER)アクティビティ
名前、組織、日付などの事前学習済みの固有表現を抽出します。
Extraction Rules アクティビティ
半構造化フラグメントに対するルールベースの抽出を定義します。
