跳转到主要内容
某些公司的文档可能具有独特且复杂的结构。要从此类文档中准确抽取数据,您需要设置面向特定公司的抽取活动。您可以在单个 Document skill 中使用 Classify By Company 活动来实现。该活动利用数据目录按公司对文档进行分类。

使用数据目录(data catalog)

数据目录(data catalog)是一组包含特定信息的数据。例如,它可以包含与公司相关的信息,如公司名称、地址、银行账户号等。数据目录可用于在文档中查找公司实体,例如 Vendor、收货人、银行、航运公司等。可以使用与数据目录结构相同的 CSV 文件来填充数据目录。有关使用数据目录的更多信息,请参阅 Skill Designer 指南中的“使用数据目录”部分。 当使用 Classify By Company 活动处理文档时,系统会在已连接的数据目录中搜索特定的公司数据。结果为一个唯一的公司标识符,并将其写入 Skill 中对应的字段。随后,该公司标识符用于配置特定于该公司的文档处理算法。对于 Classify By Company 活动的运行,唯一必需的字段是该公司标识符;不过,您也可以利用数据目录中存储的公司信息填充更多字段,从而避免为这些字段另行设置提取活动。为此,您需要将数据目录的列映射到 Skill 中相应的字段。 Classify By Company 活动使用类型为 Document Issuer Companies 的数据目录,该目录可在您所连接的 Vantage 服务器上使用。 在某些情况下,您可能希望在文档中查找一对相关公司(例如,供应商与商品采购方)。为此,请添加第二个可选数据目录,类型为 Document Receiver Companies。若需要查找两个不相关的公司,您可以使用此选项,或添加两个 Classify By Company 活动。

查找公司配对

贵公司每个业务部门可能都有自己的供应商数据库。如果某个供应商与多个业务部门合作,它将拥有多个不同 ID 的条目。在这种情况下,您需要找到与该业务部门相对应的供应商精确条目。为此,请在数据目录(data catalog)“Document Issuer Companies”中填写 Company Correlation ID 列。随后,搜索将查找公司配对,其中单据开具方的 Correlation ID 与单据接收方的 ID 相匹配。如果某些 Correlation ID 缺失,则优先考虑已匹配 Correlation ID 的配对。 在搜索公司配对时,会基于供应商与业务部门之间的关联生成假设。Classify By Company 活动会选择五条与文档图像上的 field 值最可靠匹配的单据接收方公司记录。然后,对于每条记录,该活动会选择五条 Company Correlation ID 与 Receiver Company ID 完全相同的单据开具方公司记录。若数据目录(data catalog)中不存在 Company Correlation ID 与 Receiver Company ID 完全相同的记录,则会改为选择 Company Correlation ID 为空的记录。
重要! 为找到有效配对,必须为所有记录填写正确的 Company Correlation ID。
最终,将选出最佳匹配的开具方—接收方配对。有关公司检测的更多信息,请参阅公司检测的工作原理 如果您的单据开具方公司可能与任何单据接收方合作,则无需在 Document Issuer Companies 数据目录(data catalog)中填写 Company Correlation ID 列,搜索将考虑所有可能的公司配对。

数据目录(data catalog)类型

文档发行方公司数据目录(data catalog)

NameDescription
Issuer Company ID通过检测文档发行方获得。在外部信息系统中用于标识文档发行方。

注意: 若公司的所有业务单元使用同一客户数据库,则这是数据目录中的条目唯一标识符;否则,数据目录中的条目将由 Issuer Company IDCompany Correlation ID 的组合作为唯一标识。
Company Correlation ID公司的业务单元标识符。

注意: 如果公司的各业务单元使用不同的客户数据库,则必须填写此列,因为数据目录中条目的唯一键将是 Issuer Company IDCompany Correlation ID 的组合。更多信息请参见查找公司配对
Tax ID这些列可用于唯一公司标识符搜索。
National Tax ID这些列可用于唯一公司标识符搜索。
IBAN这些列可用于唯一公司标识符搜索。
Name这些列可用于按公司名称和地址进行搜索。
Postal Code这些列可用于按公司名称和地址进行搜索。
Street这些列可用于按公司名称和地址进行搜索。
City这些列可用于按公司名称和地址进行搜索。
State or Province这些列不用于公司检测过程,仅用于填写文档字段。
Country这些列不用于公司检测过程,仅用于填写文档字段。
Bank Account这些列不用于公司检测过程,仅用于填写文档字段。
Bank Code这些列不用于公司检测过程,仅用于填写文档字段。

文档接收方公司数据目录(data catalog)

NameDescription
Receiver Company ID通过检测文档接收方获得。在外部信息系统中用于标识文档接收方。是数据目录中条目的唯一键。
Tax ID此列可用于唯一公司标识符搜索。
Name这些列可用于按公司名称和地址进行搜索。
Postal Code这些列可用于按公司名称和地址进行搜索。
Street这些列可用于按公司名称和地址进行搜索。
City这些列可用于按公司名称和地址进行搜索。
State or Province这些列不用于公司检测流程,仅用于填写文档字段。
Country这些列不用于公司检测流程,仅用于填写文档字段。