跳转到主要内容数据目录(data catalog)记录的详尽程度和质量会显著影响公司检测的准确性。文档开票方与接收方的记录与从文档图像中提取的文本越匹配,对应的开票公司和接收公司就能被越准确地识别。
为确保检测结果尽可能准确,请确保:
- 填写唯一的公司标识符。填写唯一值列(纳税人识别号(TIN)、国家税号、IBAN(国际银行账户号码))将显著提升正确检测的概率,因为这些值对每家公司都是唯一的。
- 不存在重复的公司记录。避免重复记录可提高正确检测公司的概率。
- 不存在无关记录。数据目录(data catalog)中的过时或无效记录,可能因不同 field 值之间的偶然相似而导致公司被误判。
- 为每条公司记录填写所有 field。尽可能提供准确完整的公司信息。信息越准确,正确检测公司的概率越高。
公司识别包括以下步骤:
以下字段的值被视为公司的唯一标识符:
- 纳税人识别号
- 国家纳税人识别号
- IBAN(国际银行账户号码)
Classify By Company 活动会使用关键字和正则表达式在文档图像中搜索上述字段的值。如果未指定,则会跳过此步骤。
在文档图像上检测到的纳税人识别号、国家纳税人识别号和 IBAN 值用于查询数据目录(data catalog)。随后,从数据目录(data catalog)返回的纳税人识别号、国家纳税人识别号和 IBAN 值将与图像上检测到的值进行匹配(使用精确匹配)。
为了便于匹配,值将按以下方式规范化:
- 字母转换为大写
- 删除空格以及以下字符:”.”、”,”、”—”、”/”、”****“
将文档图像上检测到的全部文本用于查询数据目录(data catalog)。
随后,将从数据目录(data catalog)返回的 Name、Street、Postal code 和 City 值与图像上检测到的对应值进行比对(使用精确匹配)。
注意: 为获得尽可能理想的搜索结果,请确保数据目录(data catalog)中的相应列均已填写。尤其是在无法通过纳税人识别号(Tax ID)、National Tax ID 或 IBAN(国际银行账户号码)识别公司时,公司名称和地址信息尤为重要。
基于在步骤 1 和步骤 2 中找到的公司,会生成一组假设。Classify By Company 活动会评估这些假设,并选择与文档图像上检测到的 field 值最可靠匹配的五条文档开票方公司记录和五条文档收件方公司记录。随后使用这些记录组成 25 个配对,每个配对视为一个单独的假设。训练好的模型将按可靠性对这些假设进行评分,选出最佳匹配的开票方–收件方配对。
注意:即使文档收件方公司数量非常少(例如只有一个文档收件方公司),仍然建议使用 Document Receiver Companies 数据目录(data catalog),因为这将防止将文档收件方公司误判为文档开票方公司。
如果 Document Issuer Companies 数据目录(data catalog)指定 Issuer Company ID 依赖于 Receiver Company ID,则会基于此关联生成假设(参见寻找公司配对)。
在对文档中的开票方与收票方公司进行检测后,将得到以下标识符:
- Document Issuer Companies 数据目录中的开票方公司标识符
- Document Receiver Companies 数据目录中的收票方公司标识符
注意: 如果 Document Issuer Companies 数据目录中指定“开票方公司 ID(Issuer Company ID)”依赖于“收票方公司 ID(Receiver Company ID)”(参见查找成对公司),则开票方检测结果将包含与该收票方公司 ID 对应的开票方公司 ID。