高精度な検出のためのベスト プラクティス
- 一意の会社識別子が入力されていること。一意の値の列(税務識別番号、国の税務識別番号、IBAN(国際銀行口座番号))を入力すると、これらの値は各社で一意であるため、正しく検出される可能性が大幅に向上します。
- 重複する会社レコードがないこと。重複レコードがないほど、会社を正しく検出できる可能性が高まります。
- 無関係なレコードがないこと。データ カタログ内の古いまたは無効なレコードは、さまざまなfield値の偶然の類似性により、会社が誤って検出される原因となる可能性があります。
- 各会社レコードで、すべてのfieldが入力されていること。会社に関するできる限り正確な情報を入力してください。情報が正確であればあるほど、会社を正しく検出できる可能性が高まります。
企業検出プロセス
ステップ 1: 一意識別子の検索
- 税務識別番号
- National Tax ID
- IBAN(国際銀行口座番号)
- 文字は大文字に変換されます
- 空白および次の文字は削除されます: ”.”, ”,”, ”—”, ”/”, ”****“
ステップ 2: 会社名と住所の検索
注: 最良の検索結果を得るために、データ カタログの該当列が適切に入力されていることを確認してください。会社を 税務識別番号、National Tax ID、または IBAN(国際銀行口座番号)で特定できない場合、会社名と住所情報が特に重要になります。
ステップ 3: 仮説の生成
注: ドキュメント受領者の会社数が非常に少ない場合(たとえば1社のみの場合)でも、Document Receiver Companies データ カタログの使用を推奨します。受領者の会社が誤って発行者の会社として検出されるのを防ぐためです。Document Issuer Companies データ カタログで Issuer Company ID が Receiver Company ID に依存すると指定されている場合は、この相関関係に基づいて仮説を生成します(企業のペアを探すを参照)。
文書の発行企業および受領企業の検出結果
- Document Issuer Companies データ カタログ内の発行企業識別子
- Document Receiver Companies データ カタログ内の受領企業識別子
注: Document Issuer Companies データ カタログで、Issuer Company ID が Receiver Company ID に依存すると指定されている場合(企業の組み合わせを探すを参照)、発行企業の検出結果には、Receiver Company ID に対応する Issuer Company ID が含まれます。
