メインコンテンツへスキップ
固有表現(NER)アクティビティは、自然言語処理(NLP)を使用して、契約書、書簡、注文書、プレスリリースなど、ルールで定義できる明確な構造を持たない非構造化ドキュメントから固有表現を抽出するよう設計されています。固有表現(NER)アクティビティでこれらのドキュメントを処理するには、エンティティの値を抽出する先となる Skill の field に固有表現をマッピングする必要があります。このアクティビティはドキュメントを解析し、固有表現を対応する field に抽出します。 他のアクティビティで抽出された field に対しても、固有表現の抽出を設定できます。たとえば、抽出対象の組織名と住所が各契約書の最初の段落にあることがわかっている場合、Segmentation アクティビティで最初の段落を抽出し、その段落から固有表現(NER)アクティビティで会社名と住所を抽出できます。この方法は、抽出対象の領域を限定して制御できるため、ドキュメント全体から固有表現を抽出するよりも信頼性が高くなります。
注: このアクティビティがサポートするのは、データ型が Text、Date、または Money に設定された Text タイプの field のみです。

Named Entities(NER)アクティビティの設定

Named Entities(NER)アクティビティを設定するには:
  1. Activities タブで、ドキュメント処理フローに Named Entities(NER)アクティビティを追加します。
  2. Activity Properties ペインで、Source ドロップダウンリストから、このアクティビティが名前付きエンティティを抽出するソース(ドキュメント全体、または別のアクティビティで抽出された単一の field)を選択します。
  3. Output field で、名前付きエンティティの抽出先となる field を選択します。
注意: 出力の field は、ソースの field と同じネストレベルか、1レベル下である必要があります。
  1. Create Mapping をクリックします。開いたダイアログで、Entity to extract リストから各 field に抽出する名前付きエンティティを選択します。Save をクリックします。Edit Mapping をクリックすると、いつでもマッピングを編集できます。
  2. Test Skill をクリックして Skill をテストし、Results タブで名前付きエンティティ抽出の結果を確認します。

サポートされている固有表現

エンティティ名説明サポート対象のデータ型サポートされている言語
Person人名John Doe, Jane SmithTextEnglish, Russian, German, French, Spanish, Japanese, Italian, Portuguese (Standard), Dutch
Location地名Anytown, Corporate PlaceTextEnglish, Russian, German, French, Spanish, Japanese, Italian, Portuguese (Standard), Dutch
Organization組織名ABBYY, Acme Corp.TextEnglish, Russian, German, French, Spanish, Japanese, Italian, Portuguese (Standard), Dutch
Address住所123 Main Str., Anytown AB 45678, 950 Acacia Avenue 50, Anytown, AB 12345, USATextEnglish, Russian, German, French, Spanish, Japanese, Italian, Portuguese (Standard), Dutch
Money金額$2670.00, 199 dollars 99 centsText, Amount of moneyEnglish, Russian, German, French, Spanish, Japanese, Italian, Portuguese (Standard), Dutch
Date日付November 14, 2009, 11/14/2009Text, DateEnglish, Russian, German, French, Spanish, Japanese, Italian, Portuguese (Standard), Dutch
Duration期間Twelve (12) months, 4 daysTextEnglish, Russian, German, French, Spanish, Japanese, Italian, Portuguese (Standard), Dutch