跳转到主要内容在处理文档时,您可能需要将从文档中提取的数据与存储在数据目录(data catalog)中的记录进行核对。Data Catalog Lookup 规则可以帮助您自动完成此任务。通过这些规则,您可以:
- 将发票和订单与 Vendor 和收货人数据库进行比对
- 使用匹配的数据目录记录自动填充缺失的文档字段,例如:
- 订单号和金额
- 公司详细信息
- 商品和服务的名称与描述
有关用于 Document skill 的数据目录的更多信息,请参见使用数据目录。
要创建数据目录查找规则,请执行以下步骤:
-
在字段属性中单击 New Rule。
-
在打开的对话框中,选择 Data Catalog Lookup 作为规则类型,然后单击 Next。
-
在 Data Catalog for Lookup 下拉列表中,选择用于验证文档字段值的数据目录。
注意: 如果需要将值与多个数据目录进行比较,请为每个数据目录分别创建规则。
-
选择数据目录后,将显示下表:
Catalog Column 列出了所选数据目录中的列。
-
在 Skill Field 列中,使用下拉列表将每个目录列映射到相应的提取文档字段。
如果不需要搜索某个字段,或者该字段在文档中不存在,请将其留空。
注意: 单个规则只能引用来自一个可重复组中的字段。若要搜索来自多个可重复组的值,请为每个组创建单独的规则。
-
在 Action 列中,定义每个字段对的处理方式:
- Exact Comparison。 用于匹配唯一值,例如纳税人识别号(TIN)或产品标识符。
- Fuzzy Comparison。 用于可能略有差异的值,例如街道名称或组织地址。Fuzzy Comparison 的阈值为 30%,这意味着必须匹配到值的 70%。比较不区分大小写。
- Get Value from Data Catalog。 将目录中的值复制到相应的文档字段。仅当规则中至少有一对字段使用 Exact 或 Fuzzy Comparison 时,此选项才可用。
-
(可选)在 Rule Name 中编辑规则名称,然后单击 Save。
- 在 数据目录(Data Catalogs) 部分,对应目录下会显示指向该 Skill 的链接。
- 该规则会自动应用到在设置过程中已完成映射的所有文档 field。
- 现有查找规则仅在 field 抽取阶段运行。如果用户手动编辑 field 的值,自动查找不会针对新值重新运行。
- 若要再次触发这些规则,请向该 Skill 的文档集上传新文件,或将文档发送至人工校验。
数据目录(data catalog)查找规则只有在比较(精确或模糊)的结果返回不超过一条匹配记录时才能可靠运行。否则,可能会发生以下错误之一:
- 未找到记录。 没有任何目录记录符合指定的比较条件。
- 找到的记录过多。 有多于一条的目录记录匹配。
为避免此类错误,请确保至少有一个映射的 field 所使用的值是唯一的,或不可能匹配到多条目录记录。
在数据目录(data catalog)中手动查找 field 值
要在数据目录(data catalog)中查找 field 值,请按照以下步骤操作:
- 单击已配置规则的 field 值框右侧的 Search 按钮。
- 在弹出的搜索栏中,输入要查找的值(完整或部分,至少 3 个字符)。对于模糊搜索(Fuzzy search),阈值为 30%,也就是说最多允许 30% 不匹配,至少 70% 需被找到。搜索不区分大小写。系统将在所选数据目录(data catalog)的所有 fields 中进行搜索。
- 在搜索结果中选择正确的值,方法是用鼠标左键单击该值。所选目录值将复制到在规则设置期间链接到该目录列的所有文档 fields 中。
使用目录记录填充文档 field 后,将禁用手动编辑。如果该值不正确,请再次执行查找并选择其他记录。文档 fields 将更新为新选择的目录值,规则也会重新运行。
如果在数据目录(data catalog)中找不到所需值,请单击 Clear Document Fields 或按 Ctrl+Del。这将恢复规则设置期间指定的 fields,使其使用从文档中提取的值,而不应用任何数据目录(data catalog)值。