- テーブルからエンティティを抽出する必要がある。
- NLP モデルを学習させるためのサンプルドキュメントが十分にない。
- 一部の field の抽出品質に満足していない。
-
次に一致するテキストスパンを特定する
- 特定の正規表現
- テキスト内で任意の活用形で出現する、ユーザー辞書内の特定の単語やフレーズ
- 組み込みの NER オブジェクト のいずれか:
-
人 (NerPerson)
- 組織 (NerOrg)
- 場所 (NerGeo)
- 住所 (NerAddress)
- 金額 (NerMoney)
- 日付 (NerDate)
-
期間 (NerDuration、ロシア語および英語のテキストでのみ使用可能)
- アカウント番号 (NERAccountNumber、ロシア語のテキストでのみ使用可能) 注: NerMoney、NerDate、NerDuration、NERAccountNumber オブジェクトは、抽出スクリプト でのみ使用されます。
- 検索語やフレーズが任意の活用形で出現しうるテキストやテキストスパンに対してクエリを実行する。
- 特定したテキストスパンをドキュメントの field に保存する。
-
ドキュメントから住所と、次の住所の構成要素を抽出する:
- 郵便番号 (NerZipCode)
- 国 (NerCountry)
- 州 (NerState)
- 市区町村 (NerCity)
- 住所 (NerStreet)
- Document Definition エディターを開きます。
- ドキュメントセクションを選択して右クリックし、ショートカット メニューで Properties… をクリックします。
- NLP タブをクリックします。
- Extraction Scripts で、Create… をクリックします。
- Extraction Script ダイアログで、
- ユーザー辞書をロードするには Load… ボタンをクリックするか、
- スクリプト エディターを開くには Edit… ボタンをクリックします。
ユーザー辞書は、BOM 付き UTF-8 または ANSI でエンコードされている必要があります。
ドキュメントから住所の構成要素を抽出する
- 住所が含まれているドキュメント内の領域を指定します。
- [resultCollectionNamePrefix]_[NerTypeOfComponent] 形式のコレクション名。
- resultCollectionNamePrefix プレフィックス。
- NER オブジェクトの型。
現在、抽出できるのはドイツおよび US の住所の構成要素のみです。
