メインコンテンツへスキップ
Extraction Rules アクティビティは、非構造化ドキュメントの認識されたテキストを対象に動作します。ルールは、固有表現、キーワード、正規表現を用いて、抽出対象の field に対する条件を設定します。

ユースケース

次のような場合に、このアクティビティをドキュメント処理フローに追加します。
  • Named Entities (NER) アクティビティで同一タイプのオブジェクトを複数抽出しており、その中から特定のインスタンスを見つける必要がある場合。たとえば、賃貸借契約書から複数の Organization エンティティが抽出されることがあります。Extraction Rules アクティビティを使用して、家主と借主を判別できます。
  • Deep Learning アクティビティを使用するのに十分なドキュメントがない場合。この場合は Extraction Rules アクティビティを作成し、キーワード、正規表現、その他のビジネスロジックを用いて必要なオブジェクトを抽出できます。
  • 非標準タイプのオブジェクトを抽出する必要がある場合。たとえば、日付だけでなく日時の組み合わせを抽出したい場合があります。
  • 同一のオブジェクトに関連する複数のfieldをグループ化する必要がある場合。たとえば、Extraction Rules アクティビティを使用して、各人物の氏名、生年月日、住所をひとまとまりにできます。Named Entities (NER) アクティビティでも氏名と住所は抽出できますが、住所を対応する氏名に対応付けることはできません。

仕組み

このアクティビティは Natural Language Processing (NLP) を使用して、テキスト内の検索要素を検出します。検索要素とは、固有表現、またはキーワードや正規表現に一致する単語・フレーズを指します。他のアクティビティで抽出された field と組み合わせることで、検索要素を抽出ルールの構成要素として利用でき、ルールでは他のテキストに対する field の位置を指定します。抽出ルールは UI から容易に作成でき、専用の言語でさらにカスタマイズできます。 検索要素は field にマッピングでき、検索要素の領域から認識されたテキストが、対応する field の入力値として使用されます。 詳細については、Extraction Rules アクティビティの設定を参照してください。