メインコンテンツへスキップ

Documentation Index

Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt

Use this file to discover all available pages before exploring further.

「混在」文書セット は、Advanced Designer では 2 つの意味で使われます。
  • 半構造化文書と非構造化文書の両方 (異なる文書タイプ) を含む 1 つのセット。
  • 構造が混在した 1 つの文書。たとえば、埋め込みテーブル、埋め込み field、タイトル、ヘッダー、またはフッターを含む非構造化の契約書です。

シナリオを選択

シナリオ使用する場合主要アクティビティ
1つのセット内の半構造化文書 + 非構造化文書両方が共有の出力fieldsを持つ1つの論理型に属する場合Classify + IF + Fast Learning + Segmentation + Deep Learning for NLP
fieldsが埋め込まれたテーブルセルテーブルセル内から値を抽出する場合 (例: Closing Disclosure内の名前)Fast Learning + NER (+ Address Parsing)
テーブル/タイトル/ヘッダー/フッターが埋め込まれた非構造化文書主に非構造化文書で、一部に半構造化の要素を含む場合Segmentation + Extraction Rules
以下の各シナリオは共通のパターンに従っており、異なるのは処理フローに追加するアクティビティだけです。

一般的なワークフロー

1

Document skill を作成

Advanced Designer を開き、スタート ページで Create Document Skill をクリックします。
2

ドキュメントをアップロード

Documents タブで、Skill の設定に使用するドキュメントをアップロードします。
3

fields を定義してラベル付け

Fields タブで、Skill が抽出する fields を作成して設定します。Reference セクションでドキュメントにラベル付けします。
4

Activity を追加して設定

Activities タブで、シナリオに応じた Activity (詳細は以下を参照) を追加します。各 Activity を Activity Editor で開き、設定して学習させます。
5

テストして公開

Test Skill Using Selected Documents をクリックして結果を評価します。結果が十分に良好であれば、Skill を公開します。

1 つのセット内の半構造化文書と非構造化文書

1 つの Document skill で 半構造化 文書と 非構造化 文書の両方を処理する必要がある場合は、このシナリオを使用します。これらはどちらも同じ論理タイプに属し、同じ出力fieldsのセットを共有します。 各文書は、テキストとレイアウト情報を組み合わせて、低品質の画像やグラフィック上の特徴 (署名、印章) だけが異なる文書に対応できる Classify By Text and Image activity で分類します。最良の結果を得るには、分類器がバランスの取れた学習データを得られるように、各バリエーションについておおむね同数の文書をアップロードしてください。次に、IF アクティビティを使ってフローを分岐します。
Classify と IF により Fast Learning と Segmentation + Deep Learning for NLP に分岐するドキュメント処理フロー

セルテキストにfieldsが埋め込まれたテーブルセル

このシナリオは、半構造化文書のテーブルセル内から特定の値を抽出する必要がある場合に使用します。たとえば、Closing Disclosure のセルに埋め込まれた借入人の氏名や住所の一部を抽出する場合です。 まずセルを 1 つのテキストブロックとして Fast Learning アクティビティ で抽出し、その後、そのブロックに対して NLP アクティビティを実行して、埋め込まれたfieldsを抽出します。
Fast Learning から Named Entities(NER)アクティビティと Address Parsing アクティビティに渡されるドキュメント処理フロー

テーブル、タイトル、ヘッダー、またはフッターを含む非構造化文書

このシナリオは、主に非構造化文書 (たとえば契約書) でありながら、テーブル、タイトル、ヘッダー、またはフッターなどの半構造化要素が埋め込まれている文書に使用します。 プレーンテキストの段落は Segmentation アクティビティ で検出し、半構造化要素は Extraction Rules アクティビティ で検出します。各要素を切り分けたら、適切なアクティビティを使用してそのfieldsを抽出します。
非構造化テキストの段落と半構造化テーブルが含まれるサンプル文書

Classify By Text and Image

テキストと視覚的特徴を組み合わせて文書を分類します。

Fast Learning アクティビティ

半構造化文書やテーブルセルからfieldsを抽出します。

Segmentation アクティビティ

非構造化fieldsを含む段落を切り出します。

Deep Learning for NLP アクティビティ

非構造化テキストから、カスタムエンティティや判別が難しいエンティティを抽出します。

固有表現(NER)アクティビティ

名前、組織、日付などの事前学習済みの固有表現を抽出します。

Extraction Rules アクティビティ

半構造化フラグメントに対するルールベースの抽出を定義します。