プログラムでのデータ抽出時に正規化はどのように機能しますか?
プログラムでのデータ抽出時に正規化はどのように機能しますか?
FCFORINVOICES では、データセットの値に対して 2 種類の正規化を使用できます。
1. テキスト
- 空白文字 (改行文字およびタブ文字を含む) と区切り記号は、通常のスペースに置き換えられます。
- 区切りとして使われるピリオド (単語と単語の間に置かれるピリオド) はスペースに置き換えられ、略語内のピリオドは削除されます。
- 接続記号 (&、+、-、/、~) の正規化:
- 先頭が1文字の単語で始まり、同じ接続記号で区切られた一連の単語は、1つの単語に連結されます。たとえば、R & D は R&D になります。
- それ以外の場合、接続記号はスペースに置き換えられます。たとえば、Procter&Gamble は Procter Gamble になります。
- 連続するスペースは削除されます。
- あらかじめ指定されたリストを使用して単語を分割します。たとえば、CoKG は Co KG に分割されます。
- 認識されたテキスト内のスペースを使って、個々の単語に分割します。
- あらかじめ指定されたリストを使用して、各単語の接尾辞を置き換えます。たとえば、接尾辞 strasse を str に置き換えることができます。
- あらかじめ指定されたリストに従って、複数の単語から成る文字列を自動的に置き換えます。たとえば、単語 Limited を略語 Ltd に置き換えることができます。
詳細...
詳細...
Normalization.xml ファイルは、データセット の作成後でも変更できます (データセット ごとに個別に設定します) 。標準の正規化設定を変更するには、次の手順を実行します。
- DownloadNormalizationSettings FCAdminTools コマンドを使用して設定ファイルをダウンロードします。
- 必要な変更を加えます。
- UpdateNormalizationSettings FCAdminTools コマンドを使用して設定ファイルをアップロードします。
今後のバージョンでは、正規化アルゴリズムに大きな変更が加えられる可能性があります。
2. 英数字コード
- このオプションを有効にすると、正規化された値がデータ セット に保存されます。
- このオプションを無効にすると、外部データベースの元の値がデータ セット にコピーされます。
