跳转到主要内容在训练分类器的过程中,系统会收集分类结果的统计数据。分析这些统计数据有助于了解如何提升分类器的质量。
可以在 Classification Skill Designer 的 Result 选项卡中查看分类统计信息,并且每次训练分类器后都会自动更新。
该选项卡包含以下信息:
- 总体分类准确率:数据集中被正确分类的文档占文档总数的百分比。
- 各类别的分类准确率:每个类别中被正确分类的文档所占百分比。
- 各类别中被正确分类与被错误分类的文档数量。
- 分类器上次训练的日期和时间。
结果表包含所有非空的用户类别(不包括 No class)。表中的类别首先按分类器准确率排序(从低到高),然后按该类别中的文档数量排序,最后按名称的字母顺序排序。若无法在屏幕上一并显示表格的所有行,将显示滚动条。
单击结果表中的某一行会跳转到 Documents 选项卡中的对应类别。在 Documents 选项卡中修改类别名称后,Result 选项卡中的名称也会同步更新。如果在训练对应分类器后删除某个类别,该类别名称会在 Result 选项卡中显示为灰色。仅当再次训练分类器后,包含该类别的行才会从结果表中移除。
大多数错误分类是由创建训练集时的失误造成的(例如,参考类别分配不当,或文档集中缺少足够数量的特定页)。
要修复此类错误,请为该训练集中的相应文档分配正确的类,并按如下方式重新训练分类器:
- 在操作窗格中点击在文档集内审核预测,进入Documents选项卡。或者,在结果表中点击具有相应类的行。
- 选择一个被错误分配了参考类的文档。
- 在操作窗格中点击正确类的名称。
- 对每个被错误分配参考类的文档重复步骤 2 和 3。
- 在操作窗格中点击训练按钮。
分类器质量不足可能由以下原因造成:
- 上传的文档数量不足
- 各类别之间的文档分布明显不均衡
- 对于给定类别,最常见文档变体的样本数量不足
在这种情况下,可通过将缺失的文档补充到训练集来提升分类器质量。我们建议为每个类别上传 100 到 1000 份文档。我们还建议在文档集中按大致一对一的比例,为每个类别最常见的文档变体包含示例文档。
将新文档添加到训练集后,请为每个文档指定类别并重新训练分类器。
分类错误也可能源于各类别在参数方面差异不明显。在这种情况下,应审查类别数量,并在必要时将容易混淆的类别合并为一个类别。
例如,如果两类发票唯一显著的差异只是应付总计,那么“金额低于 10,000 USD 的发票”和“金额高于 10,000 USD 的发票”这两类可能会被混淆。
在这种情况下,这些类别应在 Classification Skill 中合并为一个类别;如有需要,可在后续阶段再将发票区分开来(例如,当已经从发票中提取出应付总计时)。