跳转到主要内容
在处理文档时,您可能需要将从文档中提取的数据与存储在数据目录中的记录进行核对。数据目录查找规则可帮助您自动执行此任务。通过这些规则,您可以:
  • 将发票和订单与供应商和收货人数据库进行比较
  • 使用匹配的数据目录记录自动填充缺失的文档字段,例如:
    • 订单号和金额
    • 公司详细信息
    • 商品和服务的名称及描述
关于用于文档技能的数据目录的更多信息,请参阅使用数据目录 要创建数据目录查找规则,请按照以下步骤操作:
  1. 在字段属性中单击 New Rule
  2. 在打开的对话框中,选择 Data Catalog Lookup 作为规则类型并单击 Next
  3. Data Catalog for Lookup 下拉列表中,选择用于验证文档字段值的数据目录。 注意: 如果需要将值与多个数据目录进行比较,请为每个数据目录分别创建规则。
  4. 选择数据目录后,会出现以下表格: 数据目录查找配置 Catalog Column 列出所选目录中的列。
  5. Skill Field 列中,使用下拉列表将每个目录列映射到相应的已提取文档字段。 如果您不需要搜索某个字段,或者该字段在文档中不存在,请将该字段留空。
    注意: 一个规则只能引用来自单个重复组的字段。若要搜索多个重复组中的值,请为每个重复组分别创建规则。
  6. Action 列中,定义每对字段的处理方式:
    • Exact Comparison. 用于匹配唯一值,例如税号或产品标识符。
    • Fuzzy Comparison. 用于可能略有差异的值,例如街道名称或组织地址。模糊比较的阈值为 30%,这意味着至少需要匹配到值的 70%。比较不区分大小写。
    • Get Value from Data Catalog. 将目录中的值复制到相应的文档字段。仅当该规则中至少有一对字段使用 Exact 或 Fuzzy Comparison 时,此选项才可用。
  7. (可选)在 Rule Name 字段中编辑规则名称并单击 Save

创建规则后

  • 指向技能的链接会出现在 数据目录 部分的相应目录下。
  • 该规则会自动对在配置过程中映射的所有文档字段进行处理。
  • 现有查找规则仅在字段提取期间运行。如果用户手动编辑字段值,自动查找不会针对新值重新运行。
    • 若要再次触发规则,请将新文件上传到该技能的文档集,或将文档发送至人工审核。

匹配行为和可能的错误

只有在比较(精确或模糊)最多返回一条匹配记录时,数据目录查找规则才能可靠运行。否则,可能会出现以下错误之一:
  • 未找到记录。 没有任何目录记录符合指定的比较条件。
  • 找到的记录过多。 有多于一条目录记录匹配。
为避免此类错误,请确保至少有一个映射的字段使用的值具有唯一性,或不会匹配到多条目录记录。

在数据目录中手动查找字段值

您可以搜索与字段值中任意单词的任意部分匹配的数据目录记录,而不仅限于第一个单词。  您可以通过脚本、活动(例如 Script 或 NLP 活动)和规则来填充参与数据库查找的字段,也可以手动填充。如果在人工审核过程中字段值被更改,数据目录查找规则会再次运行。如果找到相应记录,该字段将变为只读。 要在数据目录中查找字段值,请执行以下步骤:
  1. 单击已配置规则的字段值框右侧的 Search 按钮。
  2. 在出现的搜索栏中输入要查找的值(完整或部分,至少 3 个字符)。对于模糊搜索,阈值为 30%,这意味着必须匹配 70% 的内容。搜索不区分大小写。系统会在所选数据目录中的所有字段中进行搜索。
  3. 在搜索结果中用鼠标左键单击选择正确的值。然后,在规则设置期间链接到该目录列的所有文档字段都会填充为所选的目录值。
使用目录记录填充文档字段后,将禁止手动编辑。如果该值不正确,请重新执行查找并选择其他记录。文档字段将更新为新选择的目录值,规则也会再次运行。 如果在数据目录中找不到所需的值,请单击 Clear Document Fields 或按 Ctrl+Del。这会将规则设置期间指定的字段还原为从文档中提取的值,而不应用任何数据目录值。

另请参阅