メインコンテンツへスキップ
Extraction Rules アクティビティは、非構造化ドキュメントの認識済み Text に対して動作します。ルールは固有表現、キーワード、正規表現を用いて、抽出対象の field に対する条件を設定します。

ユースケース

次のような場合に、このアクティビティをドキュメント処理フローに追加します。
  • Named Entities (NER) アクティビティで同一タイプのオブジェクトを複数抽出しており、その中から特定のインスタンスを見つける必要がある場合。たとえば、賃貸借契約書から複数の Organization エンティティが抽出されることがあります。Extraction Rules アクティビティを使用して、家主と借主を判別できます。
  • Deep Learning アクティビティを使用するのに十分なドキュメントがない場合。この場合は Extraction Rules アクティビティを作成し、キーワード、正規表現、その他のビジネスロジックを用いて必要なオブジェクトを抽出できます。
  • 非標準タイプのオブジェクトを抽出する必要がある場合。たとえば、日付だけでなく日時の組み合わせを抽出したい場合があります。
  • 同一のオブジェクトに関連する複数のfieldをグループ化する必要がある場合。たとえば、Extraction Rules アクティビティを使用して、各人物の氏名、生年月日、住所をひとまとまりにできます。Named Entities (NER) アクティビティでも氏名と住所は抽出できますが、住所を対応する氏名に対応付けることはできません。

仕組み

このアクティビティは自然言語処理(NLP)を使用して、テキスト内の検索要素を特定します。検索要素とは、固有表現や、キーワードまたは正規表現に一致する単語・フレーズを指します。他のアクティビティで抽出されたfieldと組み合わせることで、検索要素を抽出ルールの構成要素として使用でき、これらのルールで他のテキストに対するfieldの位置を指定します。抽出ルールはUIで簡単に作成でき、専用の言語でさらにカスタマイズできます。 検索要素はfieldにマッピングでき、検索要素の領域から認識されたテキストを、そのマッピングされたfieldの入力に使用できます。 詳細については、Extraction Rules アクティビティの設定を参照してください。