メインコンテンツへスキップ

Document

1つ以上のページ画像と、そこから抽出されたデータで構成されるセット。

Document Definition

Document Definition では、特定の種類の文書を識別して処理するための基準を定義します。Document Definition で定義する内容は次のとおりです。
  • 文書構造。つまり、この種類の文書で許可されるページの順序 (この情報は、ページを文書として正しくアセンブリするために使用されます)
  • 文書セクション
  • field データが満たすべきルール
  • データ フォーム上の field とそのキャプションの位置
  • 文書のエクスポート設定
  • 文書処理設定

文書タイプ

共通する特性を持ち、業務プロセス内で同じように処理される文書です。文書タイプの例としては、請求書、契約書、パスポートなどがあります。

エンティティ

NLP 技術を用いて抽出する必要がある情報を含む、1 つの field または field のグループです。エンティティの例としては、人、企業、場所、金額、日付などがあります。

Field

データ抽出を目的とした文書要素です。field には単純なものと複雑なものがあります。複雑な field の例としては、型が “テーブル” のものがあり、この場合、各セルを個別の子 field と見なすことができます。

N

NER (固有表現認識) 非構造化テキスト内に現れる固有表現を特定し、分類する情報抽出タスクです。 NLP (自然言語処理) 人工知能および計算言語学の一分野であり、自然言語のコンピュータによる解析と合成を研究します。NLP の応用の一つに情報抽出があります。そのほかにも、機械翻訳、チャットボット、ドキュメント分類、感情分析などに利用されます。

NLP モデル

テキストからどのエンティティやセグメントを、どのように抽出するかを決定する仕組みです。NLP モデルの学習時に、対象分野と抽出アルゴリズムを選択します。

S

セグメント 抽出が必要なデータを含む、1つ以上の段落で構成されるテキストフラグメントです。セグメントは、抽出対象のfieldである場合もあります (たとえば、契約終了の条件) 。 セグメンテーション セグメントを特定するプロセスです。セグメンテーションは情報抽出に先立って行われ、大きな文書では特に有用です。エンティティの検索範囲を特定のテキストフラグメントに絞り込めるためです。