跳转到主要内容
在训练分类器时,系统会收集有关分类结果的统计数据。分析这些统计数据有助于了解如何提高分类器的质量。 可以在 Classification Skill Designer 中的 Result 选项卡里找到分类统计信息,并且每次训练分类器后都会自动更新。 Classification Skill Analysis Tabs 此选项卡包含以下信息:
  • 总体分类准确率。即在文档集中,被正确分类的文档占文档总数的百分比。
  • 每个类别的分类准确率。即对于给定类别,被正确分类的文档所占的百分比。
  • 每个类别中被正确分类和被错误分类的文档数量。
  • 分类器上次训练的日期和时间。
结果表格包含所有非空的用户类别(不包括 No class)。表中的类别首先按分类准确率排序(从最差到最好),然后按类别中的文档数量排序,最后按名称字母顺序排序。如果表格中的所有行无法在屏幕上一次性显示,将会出现滚动条。 在结果表中单击某一行,会进入 Documents 选项卡中对应的类别。在 Documents 选项卡中修改某个类别的名称时,Result 选项卡中的名称也会随之更新。如果在训练完相应分类器后删除了某个类别,则该类别的名称会在 Result 选项卡中显示为灰色。只有在再次训练分类器时,包含此类别的行才会从结果表中删除。

分类错误

大多数分类错误都是在创建训练集时出现的问题所导致的(例如,参考类别分配错误,或文档集中包含的某些特定页面数量不足)。

参考类别分配错误

要解决此类错误,请为该训练集中的文档分配正确的类别,并按如下步骤重新训练分类器:
  1. Actions 面板中点击 Review Prediction in Document Set,进入 Documents 选项卡。或者,在结果表中点击具有相应类别的行。
  2. 选择一个被错误分配了参考类别的文档。
  3. Actions 面板中点击正确类别的名称。
  4. 对每个被错误分配参考类别的文档重复步骤 2 和 3。
  5. Actions 面板中点击 Train 按钮。

文档集中的页面数量不足

分类器的质量不足可能由以下原因导致:
  • 上传的文档数量不足
  • 各类别之间的文档分布严重不均衡
  • 对于给定类别,最常见的文档变体样本数量不足
在这种情况下,可以通过将缺失的文档添加到训练集中来提高分类器质量。我们建议为每个类别上传 100 到 1000 份文档。我们也建议在文档集中为每个类别包含其最常见文档变体的示例文档,二者的比例大致为 1:1。 在您将新文档添加到训练集后,请为每个文档分配类别,然后重新训练分类器。

易混淆的类别

分类错误也可能是由于某些类别在参数方面彼此差异不大所导致。在这种情况下,您应检查类别数量,并在必要时将这些易混淆的类别合并为一个类别。 例如,如果一个类别用于处理金额少于 10,000 USD 的发票,另一个类别用于处理金额超过 10,000 USD 的发票,而它们之间唯一显著的差异只是应付合计金额,那么这两个类别就可能会被混淆。 在这种情况下,这些类别应在分类技能中合并为一个类别,并且仅在后续阶段有需要时(例如,当发票中的应付合计金额已经被提取出来时),再将这些发票区分处理。

另请参阅