跳转到主要内容当单个 Document skill 需要处理在 field 位置方面差异显著(尽管属于同一类型)的文档时,指定 field 提取属性可能会很困难。举例来说,同一个 Skill 可用于处理来自不同 Vendor 的发票,其中相同的字段可能因 Vendor 不同而位于不同位置。为改进此类 Skill 的提取质量,您可以选择将其文档归类为不同类别——这些类别是在同一文档类型下具有共同特性的文档子组——并为每个类别分别设置提取活动。
当您需要提升某个类别的提取质量时,也可能需要将文档进行分类。例如,单个 Skill 可用于处理由不同银行编制的银行对账单,其中某一种对账单类型的提取质量可能低于其他类型。为提升该 Skill 的提取质量,您可以将对账单按类别归类,并为提取质量不理想的类别设置 Extraction Rules 活动。
“按文本和图像进行分类”活动旨在将某个 Skill 的文档归入需要独立创建并配置各自提取活动的类别。
要创建并配置 Classify By Text and Image 活动,请按以下步骤进行:
- 在文档处理流程中创建一个 Classify By Text and Image 活动。
- 上传图像、创建类别,并将预期类别分配给文档。
- 训练该活动并分析训练结果。
- 如需提升分类效果,请调整相关属性。
在工作流中创建一个“按文本与图像分类”(Classify By Text and Image)活动。创建后,会在 Skill 结构中新增一个用于记录分类结果的字段。该字段的值将用于对文档进行分类。该字段会显示在 Skill 的字段结构中,但会被标记为隐藏且不可编辑。
注意:“按文本与图像分类”(Classify By Text and Image)活动不返回类别的置信度值,仅返回类别名称。
要进入 Activity Editor,请单击 Activity Editor,或双击活动块。
点击工具栏中的 Upload 并选择一种上传方式,上传用于设置该活动的文档:
a. Upload Documents… 在打开的对话框中选择相应的文档。所选文档将显示在 No Class 列表中。
b. Upload Folder Like Classes… 在打开的对话框中选择一个包含带有图像的子文件夹的文件夹。每个子文件夹应仅包含一个类别的图像。以此方式上传将根据子文件夹自动创建对应的类别,并将各子文件夹中的文档归类到该类别。因此,您无需在 Activity Editor 中手动创建类别。
点击工具栏中的 Create Class 或 Assign class 窗格中的 Create,为正在处理的不同类型文档创建相应的类。若您的文档是通过“Upload folder like classes”方式上传的,请确保已创建所有必需的类。
使用以下任一方法对文档进行分类:
- 在列表中选择同一类别的所有文档,然后在分配类别窗格中点击相应的类别名称。
- 如果尚未创建合适的类别,请在列表中选择所有相应的文档,然后点击工具栏中的创建类别或分配类别窗格中的创建来新建类别。
- 选择同一类别的所有文档,并将它们拖到与该类别对应的列表中。
如有需要,您可以使用工具栏上的 Rotate 下拉菜单更改文档页的方向。您可以选择以下选项之一:Rotate All Pages Left、Rotate All Pages Right 或 Rotate All Pages 180º。
要切换视图模式,请使用工具栏中的以下按钮:
- 列表视图:以列表形式显示文档
- 缩略图视图:以缩略图形式显示文档
要在缩略图视图中查看某个文档的完整图像,请使用预览按钮。
文档完成分类后,点击 Train Activity 按钮来训练活动。训练结束后,分类结果的统计信息将显示在 Results 选项卡中。通过分析这些统计数据,可以定位存在问题的类别并评估分类器的整体质量。
顶部窗格显示该活动中所有文档与类别的常规统计信息。这些统计有助于评估分类器的整体质量:
- accuracy:期望类别与程序分配类别一致的文档所占百分比。
- F-Measure:用于评估分类的准确性与完整性。
- Recall:被正确分类为某一特定类别的文档数占该类别全部文档数的比例。
- Precision:被正确分类为某一特定类别的文档数占被分类为该类别(无论正确与否)全部文档数的比例。
在 Classes 窗格中,您可以查看每个类别的统计信息。对于每个类别,系统会显示“程序分配的类别与预期类别一致”的文档所占百分比,以及分类正确和分类错误的文档数量。要查看分类错误的文档,请在 Classes 窗格中选择相应类别,并展开以红色显示的“分类错误”文档列表。分析这些文档可以帮助您理解为何程序会将某个文档分到与预期类别不同的类别。这种情况常见于预期类别本身就标注错误的情形,例如当不同类别的文档过于相似时。
分类不正确的一个可能原因是错误地分配了预期类别。要修复此类错误,只需为一个 Document 分配正确的预期类别。在 Results 选项卡上,选择一个被错误分配给某个 Document 的类别。展开错误分配类别的 documents 列表,选择该类别下的所有 documents,并在 Assign class 窗格的列表中为它们分配正确的预期类别。
导致分类错误的另一个可能原因是将非常相似的文档划分到不同类别中。如果分类器将两个相似的文档变体的类别混淆,通常意味着这些变体应归入同一类别,并使用单一的提取活动。在这种情况下,请检查类别数量,并将被混淆的类别合并为一个。它们之间的差异随后应在 Extraction Rules 活动中通过规则进行描述。
造成分类错误的另一个可能原因是某个类别集合中的文档数量不足。在这种情况下,您可以通过向该集合添加更多文档来提升分类器的质量。
在添加新文档或调整类别后,您需要重新训练分类器。