NLP の Extraction Rules アクティビティ

Extraction Rules アクティビティは、非構造化ドキュメントの認識されたテキストに対して動作します。ルールは固有表現、キーワード、正規表現を用いて、抽出対象の field に対する条件を設定します。

ユースケース

次のような場合に、このアクティビティをドキュメント処理フローに追加します。

Named Entities (NER) アクティビティで同一タイプのオブジェクトを複数抽出しており、その中から特定のインスタンスを見つける必要がある場合。たとえば、賃貸借契約書から複数の Organization エンティティが抽出されることがあります。Extraction Rules アクティビティを使用して、家主と借主を判別できます。
Deep Learning アクティビティを使用するのに十分なドキュメントがない場合。この場合は Extraction Rules アクティビティを作成し、キーワード、正規表現、その他のビジネスロジックを用いて必要なオブジェクトを抽出できます。
非標準タイプのオブジェクトを抽出する必要がある場合。たとえば、日付だけでなく日時の組み合わせを抽出したい場合があります。
同一のオブジェクトに関連する複数のfieldをグループ化する必要がある場合。たとえば、Extraction Rules アクティビティを使用して、各人物の氏名、生年月日、住所をひとまとまりにできます。Named Entities (NER) アクティビティでも氏名と住所は抽出できますが、住所を対応する氏名に対応付けることはできません。

仕組み

このアクティビティでは、自然言語処理 (NLP) を使用して、テキスト内の検索要素を見つけます。検索要素には、固有表現のほか、キーワードや正規表現に一致する単語やフレーズが含まれます。検索要素は、他のアクティビティで抽出されたfieldsと組み合わせることで、抽出ルールの構成要素として使用できます。抽出ルールでは、他のテキストに対するfieldsの位置を指定します。抽出ルールはUIから簡単に作成でき、さらに専用の言語を使用してカスタマイズできます。検索要素はfieldsにマッピングできるため、検索要素の領域で認識されたテキストを、対応するfieldの入力に使用できます。詳細は、Extraction Rules アクティビティの設定を参照してください。

​ユースケース

​仕組み

ユースケース

仕組み