メインコンテンツへスキップほとんどの Extraction Rules アクティビティの検索要素では、Properties ペインは What to search for と Where to search の 2 セクションで構成されます。例外は次のとおりです。
- Group および Repeating Group 要素(これらには固有のプロパティがありません)。
- 入力 field 要素(Extraction Rules アクティビティに先行する他のアクティビティから受け取り、入力 field を切り替えるための Get region from オプションのみを提供します)。
「検索対象」セクションには、各要素に固有のプロパティが含まれます。
Person、Organization、Address、Location、Date、Duration、Money
固有表現を対象とするすべての検索要素について、次のプロパティを指定できます:
- Entities: エンティティのタイプ。タイプを変更すると、検索要素のiconが自動的に更新されます。
- Instances: インスタンス数。最初のインスタンスのみ、または検出されたすべてのインスタンスを抽出できます。
辞書フレーズの場合、次を指定します:
- Text source: 検索対象の単語またはフレーズを1行につき1件ずつ記載したTXTファイル。
- Use morphology: このオプションを有効にすると、すべての語形を検索します。
- Instances: インスタンス数。最初のインスタンスのみ、または検出されたすべてのインスタンスを抽出できます。
正規表現では、次を指定します:
- 正規表現: 検索条件を定義する正規表現。プログラムは PCRE2 の正規表現構文を使用します。
- 単語の一部を検索: 文字列が他のテキストから空白で区切られていない場合でも一致を検出するには、このオプションをオンにします。
- インスタンス: 取得するインスタンス数。最初のインスタンスのみ、または検出されたすべてのインスタンスを抽出できます。
テキスト検索要素では、編集アイコンをクリックして検索する単語やフレーズのリストを入力するか、ドキュメント画像をクリックしてドキュメントから認識された単語を追加します。
Value from Dictionary 検索要素と異なり、キーワードはTXTファイルではなく直接一覧で指定でき、また、一定の認識エラーを許容するオプションも利用できます。
- Text source: 検索する単語やフレーズの一覧。1行につき1つの候補。
- Use morphology: すべての語形を検索するにはこのオプションをオンにします。
- Allowed errors: テキストを検出可能とみなす相違文字数またはその割合。認識エラーがある場合に有用です。
Note: Use morphology オプションをオンにすると、このオプションは利用できません。
- Instances: インスタンス数。最初の1件のみ、または検出されたすべてのインスタンスを抽出できます。
検索範囲 セクションは、すべての要素で共通です。このセクションでは、プログラムが検索要素を探す対象範囲を絞り込めます。以下の設定では、リスト上で現在の要素より前(上位)にある検索要素を参照できます。
- 検索対象: 検索要素は Whole Document 内、または別の検索要素の内部にあります。
例: 文書の前文で組織名を探します。
-
後: 認識されたテキスト内で、検索要素が別の検索要素の「後」に位置します。
- 同じ文で検索: 同じ文の中で要素を見つける場合にオンにします。
例: 同じ文の中で、組織名の後にその役割を探します。
-
前: 認識されたテキスト内で、検索要素が別の検索要素の「前」に位置します。
- 同じ文で検索: 同じ文の中で要素を見つける場合にオンにします。
たとえば、生年月日を探す場合、まず「born」というキーワードを持つ補助的な検索要素を作成し、そのうえで、同じ文の中でこのキーワードの後に Date エンティティが存在するよう指定できます。
複数の 後 および 前 要素を追加して、検索をさらに詳細に絞り込めます。