跳轉到主要內容
資料目錄記錄的詳細程度與品質會明顯影響公司偵測的準確性。文件開立方與接收方的記錄越是接近從文件影像中擷取的文字,就能越精確地偵測出文件開立方與接收方公司。

提高偵測準確度的最佳實務

若要確保偵測結果盡可能準確,請確保以下事項:
  • 已填寫唯一的公司識別碼。填寫唯一值欄位(稅務識別號碼、國家稅務識別號碼、IBAN)將大幅提升正確偵測的機率,因為這些值對所有公司而言都是唯一的。
  • 沒有重複的公司記錄。沒有重複記錄將會提高正確偵測公司的機率。
  • 沒有不相關的記錄。資料目錄中如有過時或無效的記錄,可能因為各種欄位值的巧合相似而導致公司被錯誤識別。
  • 每筆公司記錄的所有欄位都已填寫。請盡可能為公司提供準確的資訊。資訊越精確,正確偵測公司的機率就越高。

公司識別流程

公司識別包含下列步驟: 以下欄位的值視為公司的唯一識別碼:
  • 稅務識別號碼
  • 國家稅務識別號碼
  • IBAN
Classify By Company 活動會使用關鍵字與正則表達式,在文件影像中搜尋上述欄位的值。若未指定任何欄位,則會略過此步驟。 在文件影像上偵測到的稅務識別號碼、國家稅務識別號碼與 IBAN 值會用來查詢資料目錄。接著,從資料目錄取得的稅務識別號碼、國家稅務識別號碼與 IBAN 值,會與在影像上偵測到的值進行比對(使用精確比對)。 為了進行比對,會將值正規化如下:
  • 字母會轉換為大寫
  • 會移除空格及下列字元:”.”、”,”、””、”/”、”****“
會使用在文件影像中偵測到的所有文字來查詢資料目錄。 接著,從資料目錄取得的 Name、Street、Postal code 和 City 值,會與影像中偵測到的對應值進行比對(使用完全相符比對)。
注意: 若要獲得最佳搜尋結果,請確保資料目錄中對應的欄位已完整填寫。當無法使用稅務識別號碼、國家稅務識別號碼或 IBAN 來識別公司時,公司名稱與地址資訊尤其重要。

步驟 3:產生假設

根據在步驟 1 和步驟 2 中找到的公司,會產生一組假設。Classify By Company 活動會評估這些假設,並選出 5 筆文件開立公司與 5 筆文件接收公司記錄,這些記錄與在文件影像上偵測到的欄位值最為相符。接著會使用這些記錄組成 25 組配對,每一組配對均視為一個獨立的假設。受過訓練的模型會依可靠性對這些假設進行評分,並選出最符合的開立公司與接收公司配對。
注意: 即使文件接收公司的數量非常少(例如只有一個文件接收公司),仍然建議使用 Document Receiver Companies 資料目錄,因為這樣可避免將文件接收公司錯誤偵測成文件開立公司。
如果 Document Issuer Companies 資料目錄指定開立公司 ID 取決於接收公司 ID,則會根據此關聯性產生假設(請參閱尋找公司配對)。

偵測文件發行方與接收方公司的結果

在文件中偵測發行方與接收方公司後,會識別出下列識別碼:
  • 「Document Issuer Companies」資料目錄中的發行方公司識別碼
  • 「Document Receiver Companies」資料目錄中的接收方公司識別碼
注意: 如果「Document Issuer Companies」資料目錄指定發行方公司 ID 必須依賴接收方公司 ID(請參閱尋找成對公司),則文件發行方偵測結果將會包含與該接收方公司 ID 對應的發行方公司 ID。