メインコンテンツへスキップ抽出ルールアクティビティの多くの検索要素では、プロパティペインは 検索対象 と 検索範囲 の2つのセクションで構成されています。例外は次のとおりです。
- Group と Repeating Group 要素には、固有のプロパティはありません。
- 入力 field 要素は、抽出ルールアクティビティに先行する他のアクティビティから取得され、入力 field を切り替えるための Get region from オプションのみが用意されています。
「検索対象」セクションには、各要素に固有のプロパティが含まれます。
Person、Organization、Address、Location、Date、Duration、Money
固有表現を対象とするすべての検索要素について、次のプロパティを指定できます:
- Entities: エンティティのタイプ。タイプを変更すると、検索要素のiconが自動的に更新されます。
- Instances: インスタンス数。最初のインスタンスのみ、または検出されたすべてのインスタンスを抽出できます。
辞書フレーズの場合、次を指定します:
- Text source: 検索対象の単語またはフレーズを1行につき1件ずつ記載したTXTファイル。
- Use morphology: このオプションを有効にすると、すべての語形を検索します。
- Instances: インスタンス数。最初のインスタンスのみ、または検出されたすべてのインスタンスを抽出できます。
正規表現では、次を指定します:
- 正規表現: 検索条件を定義する正規表現。プログラムは PCRE2 の正規表現構文を使用します。
- 単語の一部を検索: 文字列が他のテキストから空白で区切られていない場合でも一致を検出するには、このオプションをオンにします。
- インスタンス: 取得するインスタンス数。最初のインスタンスのみ、または検出されたすべてのインスタンスを抽出できます。
テキスト検索要素では、編集アイコンをクリックして検索する単語やフレーズのリストを入力するか、ドキュメント画像をクリックしてドキュメントで認識された単語を追加します。
Value from Dictionary 検索要素とは異なり、キーワードはTXTファイルではなく直接一覧として指定でき、また認識エラーを一定範囲で許容するオプションも利用できます。
- Text source: 検索対象の単語やフレーズのリスト。1行につき1つのバリエーション。
- Use morphology: このオプションをオンにすると、すべての語形を検索します。
- Allowed errors: テキストを一致とみなす際に許容される相違文字の割合または文字数。認識エラーがある場合に有効です。
Note: Use morphology オプションをオンにしている場合、このオプションは利用できません。
- Instances: インスタンス数。最初のインスタンスのみ、または検出されたすべてのインスタンスを抽出できます。
検索場所 セクションはすべての要素で共通です。このセクションでは、プログラムが検索要素を探す範囲を絞り込めます。以下の設定では、リスト内で現在の要素より上にある検索要素を利用できます。
- 検索範囲: 検索要素は Whole Document 内、または別の検索要素の内部にあります。
例: 文書の前文で組織名を探します。
- 後: 認識されたテキスト内で、検索要素が別の検索要素の後にあります。
- 同一文内で検索: 同じ文の中で要素を見つけるには、このオプションをオンにします。
例: 同じ文の中で、組織名の後にその役割を探します。
- 前: 認識されたテキスト内で、検索要素が別の検索要素の前にあります。
- 同一文内で検索: 同じ文の中で要素を見つけるには、このオプションをオンにします。
たとえば、生年月日を探す場合、まず「born」というキーワードを持つ補助的な検索要素を作成し、その後、同じ文の中でこのキーワードの後方に Date エンティティがあることを指定できます。
複数の 後 および 前 要素を追加して、さらに検索を絞り込めます。