メインコンテンツへスキップ
この記事では、FCFORINVOICES Document Definition のデータセットに外部データベースからカラムを追加する際に使用できる、さまざまな正規化の種類とその設定について説明します。 正規化は、表記が異なっていても本質的には同じ意味を持つ値の形式を変換するために使用できます。正規化を行うことで、値は比較できるように一貫した形式に統一されます。たとえば、会社の住所や名前にはさまざまな表記があります。これらの値は同じ会社と同じ住所を指しているため、プログラムで適切に比較できるよう、正規化する必要があります。 正規化の型は、データセット内の各カラムについて、それらを外部データベースのカラムにマッピングする際に指定できます。 正規化は、データセットに保存される値にのみ適用されます (データセットのプロパティで [Cache data] オプションを有効にする必要があります) 。外部データベース内の値は変更されません。
FCFORINVOICES では、データセットの値に対して 2 種類の正規化を使用できます。

1. テキスト

この種の正規化は、会社名や住所などの文字列を比較する際に役立ちます。
  1. 空白文字 (改行文字およびタブ文字を含む) と区切り記号は、通常のスペースに置き換えられます。
  2. 区切りとして使われるピリオド (単語と単語の間に置かれるピリオド) はスペースに置き換えられ、略語内のピリオドは削除されます。
  3. 接続記号 (&+-/~) の正規化:
    • 先頭が1文字の単語で始まり、同じ接続記号で区切られた一連の単語は、1つの単語に連結されます。たとえば、R & DR&D になります。
    • それ以外の場合、接続記号はスペースに置き換えられます。たとえば、Procter&GambleProcter Gamble になります。
  4. 連続するスペースは削除されます。
  5. あらかじめ指定されたリストを使用して単語を分割します。たとえば、CoKGCo KG に分割されます。
  6. 認識されたテキスト内のスペースを使って、個々の単語に分割します。
  7. あらかじめ指定されたリストを使用して、各単語の接尾辞を置き換えます。たとえば、接尾辞 strassestr に置き換えることができます。
  8. あらかじめ指定されたリストに従って、複数の単語から成る文字列を自動的に置き換えます。たとえば、単語 Limited を略語 Ltd に置き換えることができます。
正規化パラメーターは、プロジェクト フォルダーに保存されている Normalization.xml ファイルで指定します。
Normalization.xml ファイルは、データセット の作成後でも変更できます (データセット ごとに個別に設定します) 。標準の正規化設定を変更するには、次の手順を実行します。
  1. DownloadNormalizationSettings FCAdminTools コマンドを使用して設定ファイルをダウンロードします。
  2. 必要な変更を加えます。
  3. UpdateNormalizationSettings FCAdminTools コマンドを使用して設定ファイルをアップロードします。
重要! 設定ファイルを更新した後は、データセットも更新する必要があります。詳細については、データセットの更新を参照してください。
今後のバージョンでは、正規化アルゴリズムに大きな変更が加えられる可能性があります。

2. 英数字コード

この正規化タイプは、税務識別番号、銀行口座、郵便番号などの英数字コードを比較する場合に便利です。 値から数字と文字以外のすべての記号が削除されるため、これらの値に含まれる空白、ダッシュ、スラッシュ、その他の任意の文字を無視して値を比較できます。 正規化を適用すると、データ セット の column を外部データベースの column にマッピングする際に、Store normalized value オプションが使用可能になります。
  • このオプションを有効にすると、正規化された値がデータ セット に保存されます。
  • このオプションを無効にすると、外部データベースの元の値がデータ セット にコピーされます。
このオプションはデータ抽出や自動チェックには影響しませんが、ユーザーが dictionary 内のエントリを検索したときに、どの値が表示されるかはこのオプションによって決まります。