データセット内の値の正規化

この記事では、FlexiCapture for Invoices Document Definition のデータセットに外部データベースからカラムを追加する際に使用できる正規化の種類と、その設定について説明します。正規化は、表記が異なっていても本質的には同じ意味を持つ値の形式を変換し、比較できるように一貫した形式に統一します。たとえば、会社の名前や住所にはさまざまな表記があります。これらの値は同じ会社と同じ住所を指しているため、プログラムで適切に比較できるよう、正規化する必要があります。正規化の型は、データセット内の各カラムについて、それらを外部データベースのカラムにマッピングする際に指定できます。正規化は、データセットに保存される値にのみ適用されます (データセットのプロパティで Cache data オプションを有効にする必要があります) 。外部データベース内の値は変更されません。 FlexiCapture for Invoices では、データセットの値に対して 2 種類の正規化を使用できます。

テキストの正規化

この種類の正規化は、会社名や住所などの文字列を比較する場合に役立ちます。

空白文字 (改行文字やタブ文字を含む) および区切り記号は、通常のスペースに置き換えられます。
区切りとして使用されるピリオド (単語間に置かれるピリオド) はスペースに置き換えられ、略語内のピリオドは削除されます。
接続記号 (&, +, -, /, ~) は正規化されます。
- 1 文字の単語で始まり、同じ接続記号で区切られた一連の単語は、1 つの単語に結合されます。たとえば、R & D は R&D になります。
- それ以外の場合、接続記号はスペースに置き換えられます。たとえば、Procter&Gamble は Procter Gamble になります。
連続するスペースは削除されます。
事前定義リストを使用して単語を分割します。たとえば、CoKG は Co KG に分割されます。
認識されたテキスト内のスペースを使って、個々の単語に分割します。
事前定義リストを使用して、各単語の接尾辞を置き換えます。たとえば、接尾辞 strasse を接尾辞 str に置き換えることができます。
単語列は、事前定義リストに従って自動的に置き換えられます。たとえば、単語 Limited を略語 Ltd に置き換えることができます。

正規化パラメーターは Normalization.xml ファイルで指定します。このファイルはプロジェクトのフォルダーに保存されています。

今後のバージョンのプログラムでは、正規化アルゴリズムに大きな変更が加えられる可能性があります。

正規化設定の変更

Normalization.xml ファイルは、データセットの作成後でも変更できます (データセットごとに個別に設定します) 。標準の正規化設定を変更するには:

設定ファイルをダウンロード

DownloadNormalizationSettings FCAdminTools コマンドを使用して設定ファイルをダウンロードします。

設定を編集

必要な変更を加えます。

設定ファイルをアップロード

UpdateNormalizationSettings FCAdminTools コマンドを使用して設定ファイルをアップロードします。

設定ファイルを更新した後は、データセットも更新する必要があります。詳細については、データセットの更新を参照してください。

英数字コードの正規化

この正規化タイプは、税務識別番号、銀行口座、郵便番号などの英数字コードを比較する際に便利です。数字と英字以外のすべての記号が削除されるため、値に含まれるスペース、ダッシュ、スラッシュ、その他の任意の文字を無視して比較できます。正規化を適用すると、データセットのカラムを外部データベースのカラムにマッピングする際に、Store normalized value オプションが使用可能になります。

このオプションを有効にすると、正規化された値がデータセットに保存されます。
このオプションを無効にすると、外部データベースの元の値がデータセットにコピーされます。

このオプションはデータ抽出や自動チェックには影響しませんが、ユーザーが辞書内のエントリを検索する際にどの値が表示されるかはこれによって決まります。

​テキストの正規化

​正規化設定の変更

​英数字コードの正規化

テキストの正規化

正規化設定の変更

英数字コードの正規化