メインコンテンツへスキップ検索要素では、抽出したいオブジェクトの種類やプロパティに関する条件を設定できます。NLP のアクティビティは非構造化テキストを扱うため、検索条件は幾何学的な位置関係ではなく、他のテキストに対する相対的位置としてオブジェクトの位置を指定します。検索を絞り込むための補助的な検索要素も使用でき、目的のオブジェクトがそれらの補助要素の内側、前、または後に存在することを指定できます。
- 画像上でハイライト表示されているオブジェクトのいずれかをクリックすると、検索要素を素早く作成できます。新しい検索要素は、クリックしたオブジェクトと同じ種類になります。ツールバーの Show Image Objects ボタンで、ハイライト表示するオブジェクトを選択します。
次の種類のオブジェクトをハイライト表示できます:
- Person
- Organization
- Address
- Location
- Date
- Duration
- Money
- Recognized words
注: 認識済みの単語を除き、これらのオブジェクトはすべて既定でハイライト表示されます。
- メニューから新しい検索要素を作成することもできます:
- ドキュメントウィンドウ右側の Search Elements タブに移動します。
- Create Element をクリックします。
- 開いたリストで目的の要素タイプを選択します。
要素を作成したら、Properties ペインでそのプロパティを設定します(詳細は「要素のプロパティ」を参照)。
注: これらのプロパティはコード形式でも表示および編集できます(詳細は「NLP の Extraction Rules アクティビティのコード構文」を参照)。
検索要素を作成する際は、検索対象となるオブジェクトに応じてタイプを指定する必要があります。利用可能な検索要素のタイプについて、以下に概要を示します。
人物名の例: John Doe、Jane Smith。
組織名。例:ABBYY、Acme Corp.
住所の例: 123 Main Str., Anytown AB 45678。
所在地名。例:Anytown、Corporate Place。
さまざまな形式の日付。例:2009年11月14日、11/14/2009。
期間の例: 12(十二)か月、4日。
金額の例: $2670.00、199 dollars 99 cents。
注: Person、Organization、Address、Location、Date、Duration、および Money の各要素は、Named Entities (NER) アクティビティで設定可能な固有表現に対応しており、同一の技術で抽出されます。
辞書に含まれる単語または語句。辞書は、検索用のテキストのバリアントを1行に1つずつ列挙したプレーンなTXTファイルである必要があります。
指定した正規表現に一致する値。
すべての語形を対象に検索したり、一定の認識エラーを許容したりできるオプションを備えたキーワードまたはフレーズ。
入れ子の検索要素の集合です。グループを構成する要素には、単純要素とグループ要素の両方を含めることができます。グループ要素自体には固有のプロパティはありません。データは、入れ子にされた検索要素の設定に基づいて抽出されます。
グループ要素は、要素の論理的な階層を構築して、デバッグやナビゲーションを容易にするために使用できます。
例えば、個人の氏名、住所、生年月日をひとまとめにグループ化すると、各人物に関するデータを一貫した方法で抽出できます。
この要素は、要素の繰り返しグループを検出するために設計されています。繰り返しグループは、あるエンティティに複数のインスタンスが存在し得るものの、その数が不明なケースを想定しています。各インスタンスのプロパティは、繰り返しグループの入れ子要素で指定します。
たとえば、履歴書を処理する場合は、「Education」という繰り返しグループを作成し、次の入れ子要素を含めます: “School_name”、“Degree”、“Start_date”、“Graduation_date”。
一方、探しているデータが、異なる役割を持つ別個のエンティティに関係する場合は、繰り返しグループは適切ではありません。たとえば、契約当事者が買い手と売り手の2者のみであれば、1つの繰り返しの”Party”グループではなく、「Party1_Buyer」グループと「Party2_Seller」グループを作成します。
この要素を使用すると、別のアクティビティで抽出された field を、ルールの構成要素として利用できます。たとえば、Extraction Rules アクティビティの前に Segmentation アクティビティがある場合、検索範囲を絞り込むために一部のセグメントを活用できます。
要素の種類を変更するには:
- 要素を右クリックし、ショートカットメニューのConvert Element toを選択します。
- リストで要素を選択し、画像上のハイライト表示されたオブジェクトをクリックします。これにより、選択した検索要素をハイライト表示されたオブジェクトの種類に変換できます。ハイライト表示された認識済みの語をクリックすると、検索要素をTextに変換すると同時に、その語を当該検索要素のキーワードリストに追加できます。
- 固有表現に対応する検索要素の場合は、Entitiesプロパティで固有表現の種類を変更します。
注: 要素の種類を変更しても、非グループ要素をグループ要素に、またはその逆に変換することはできません。
要素の名前を変更するには:
- 要素を右クリックし、ショートカットメニューのRenameを選択して、新しい名前を入力します。
- 要素を選択し、名前部分をクリック(または F2 を押下)して、新しい名前を入力します。
要素名には英字、数字、アンダースコアを使用できます。ただし、要素名を数字で始めることはできません。スペース、特殊記号 (.,:- \ /)、および予約名は使用できません。
リスト内の要素を移動するには:
- 要素を上下にドラッグして、リスト内での位置を変更します。
- 要素をグループ要素にドラッグして、そのグループ内に配置します。
注: 要素は上から下へ検索されます。つまり、他の要素の検索条件で使用される要素は、その要素より前にリスト内で配置されている必要があります。