跳转到主要内容Document Skill Designer 的 Results 选项卡包含用于 Document skill 的字段提取统计信息。分析这些统计有助于了解如何提升提取数据的质量。
该 Skill 提取的所有字段都会显示在 Fields 列中。属于字段组的字段会被归入以其字段组命名的折叠下拉列表。
提供以下字段提取统计:
- Accuracy 列显示具有正确提取值的字段所占百分比(ALL FIELDS 行),以及各个字段的正确提取值百分比。
- 各字段的 Accuracy 值计算为:Accuracy = Correct / (Correct + Recognition Issue + Located Incorrectly + Not Detected)。
- ALL FIELDS 的 Accuracy 值使用相同公式计算,但分母中的数值为所有字段的汇总。
- Correct 列显示其提取值与参考值匹配的字段实例数量。
- Recognition Issue 列显示在文档中已检测到但未正确识别的字段实例数量。
- Located Incorrectly 列显示因其区域位置与标注指定的位置不一致而导致其值与预测值不同的字段实例数量。
- Not Detected 列显示未检测到的字段实例数量。
- Frequency in Documents 列显示包含该字段的文档占比。
提示: 默认显示所有字段的统计。您可以在列表中隐藏单个字段,仅查看所需字段的统计。为此,点击 Fields 列顶部的过滤器 icon,然后选择所需字段。
您可以查看包含提取错误字段的文档。为此,请单击识别问题、定位不正确或未检测到列中的统计值。
示例: 单击识别问题列中 Order Date 字段的统计值,将打开一个选项卡,您可以在其中查看 Order Date 字段存在识别问题的文档。
在打开的结果审查选项卡中,您可以审查提取结果、文档标注错误以及识别问题。您还可以将设置 Document skill 时创建的标注与训练期间创建的标注进行比较。可以在此选项卡中通过以下任一模式查看文档:
- 参考模式显示在设置 Skill(即训练之前)时创建的参考标注,以及基于该标注提取的字段值。此模式下可编辑字段值和区域。
- 预测模式显示处理文档时获得的字段值和区域。此模式下无法编辑字段值和区域。
- 差异模式显示参考标注与预测标注之间的差异。相同的字段值和区域以绿色显示,不同的字段值和区域以红色显示。此模式下无法编辑字段值和区域。
您可以通过单击工具栏上的这些选项卡在三种模式之间切换。
如果在设置 Skill 时对字段的标注不正确,而在处理文档时得到正确结果,您可以更正参考标注。为此,请切换到差异模式,并单击位于含有标注错误的字段值上方的图标:
参考中的字段框将显示基于参考标注提取的值。单击从预测复制,用处理文档时提取的值替换不正确的值。
提示: “识别问题”表示字段值中的一个或多个字符未被正确识别。要修复此类错误,请修改该字段的属性,以便能正确解析这些字符。
示例: 如果某个字段只能包含数字,请将其数据类型设置为“Number”。这将防止例如把数字“1”识别为“l”(小写 L)或“I”(大写 I),它们在文档上看起来可能与“1”非常相似。
如果参考中的字段框中的值是正确的,但处理结果不正确,建议增加数据集中的文档数量并重新训练 Skill。
若要跳转到同一字段中包含同类错误的下一个文档,请在操作窗格中单击转到下一个文档。