メインコンテンツへスキップ
固有表現(NER)アクティビティは、Natural Language Processing(NLP)を用いて、契約書、書簡、注文書、プレスリリースなど、規則で記述できる特定の構造を持たない非構造化ドキュメントから固有表現を抽出するために設計されています。Named Entities(NER)アクティビティでこれらのドキュメントを処理するには、抽出されたエンティティの値を格納する Skill の field に固有表現をマッピングする必要があります。アクティビティはドキュメントを分析し、固有表現を対応する field に抽出します。 他のアクティビティで抽出された field に対して固有表現の抽出を設定することもできます。たとえば、抽出対象の組織名と住所が各契約書の最初の段落にあることがわかっている場合、Segmentation アクティビティで最初の段落を抽出し、その段落から Named Entities(NER)アクティビティで会社名と住所を抽出できます。ドキュメント全体から固有表現を抽出するよりも、抽出対象の領域を特定して制御できるため、この方法の方が信頼性が高くなります。
Note: このアクティビティは、データ型が Text、Date、または Money に設定された Text 型の field のみをサポートします。

Named Entities(NER)アクティビティの設定

Named Entities(NER)アクティビティを設定するには:
  1. Activities タブで、ドキュメント処理フローに Named Entities(NER)アクティビティを追加します。
  2. Activity Properties ペインで、Source ドロップダウンリストから、このアクティビティが名前付きエンティティを抽出するソース(ドキュメント全体、または別のアクティビティで抽出された単一の field)を選択します。
  3. Output field で、名前付きエンティティの抽出先となる field を選択します。
注意: 出力の field は、ソースの field と同じネストレベルか、1レベル下である必要があります。
  1. Create Mapping をクリックします。開いたダイアログで、Entity to extract リストから各 field に抽出する名前付きエンティティを選択します。Save をクリックします。Edit Mapping をクリックすると、いつでもマッピングを編集できます。
  2. Test Skill をクリックして Skill をテストし、Results タブで名前付きエンティティ抽出の結果を確認します。

サポートされている固有表現

エンティティ名説明サポート対象のデータ型サポートされている言語
Person人名John Doe, Jane SmithTextEnglish, Russian, German, French, Spanish, Japanese, Italian, Portuguese (Standard), Dutch
Location地名Anytown, Corporate PlaceTextEnglish, Russian, German, French, Spanish, Japanese, Italian, Portuguese (Standard), Dutch
Organization組織名ABBYY, Acme Corp.TextEnglish, Russian, German, French, Spanish, Japanese, Italian, Portuguese (Standard), Dutch
Address住所123 Main Str., Anytown AB 45678, 950 Acacia Avenue 50, Anytown, AB 12345, USATextEnglish, Russian, German, French, Spanish, Japanese, Italian, Portuguese (Standard), Dutch
Money金額$2670.00, 199 dollars 99 centsText, Amount of moneyEnglish, Russian, German, French, Spanish, Japanese, Italian, Portuguese (Standard), Dutch
Date日付November 14, 2009, 11/14/2009Text, DateEnglish, Russian, German, French, Spanish, Japanese, Italian, Portuguese (Standard), Dutch
Duration期間Twelve (12) months, 4 daysTextEnglish, Russian, German, French, Spanish, Japanese, Italian, Portuguese (Standard), Dutch