メインコンテンツへスキップ
分類器が文書を正しく分類できないケースは、主に次の2つに分けられます。
  1. 分類器が文書に誤ったクラスを割り当てる場合。たとえば、クラスAのページがクラスBに分類されるケースです。
  2. 分類器が文書にどのクラスも割り当てられない場合。
この2種類の誤りはドキュメント分類の品質を表すもので、通常は 適合率再現率 によって評価されます。
  • 適合率 は、あるクラスに正しく割り当てられた文書数を、そのクラスに割り当てられた文書の総数で割って算出されます。
  • 再現率 は、あるクラスに正しく割り当てられた文書数を、そのクラスに属する文書の総数で割って算出されます。

分類設定を調整して、再現率と適合率のどちらを優先するかを設定できます。

適合率を優先する

誤ったクラスに割り当てられる文書数をできるだけ少なくする必要がある場合は、高適合率設定を使用します (また、一部の文書が未分類のままでも許容できる場合) 。 ある企業では、請求書と契約書を分類し、それぞれの文書クラスの処理を担当する部門に送れるようにする必要があります。 ABBYY FlexiCaptureが請求書を誤って分類すると、その請求書は適切な部門に届かず、支払いされません。ABBYY FlexiCaptureが請求書をまったく分類しない場合は、その請求書を手動で分類して適切な部門に送ることができます。 この例では、文書のクラスをできるだけ高い適合率で判別することが重要です。

再現率を優先する

どのクラスにも割り当てられない文書の数をできるだけ少なくする必要がある場合 (また、一部の文書が誤ったクラスに割り当てられることが許容される場合) は、高再現率設定を使用します。 ある企業では、さまざまなローン書類が混在する中から、特定のクラスのローン文書を識別して処理する必要があります。 ABBYY FlexiCaptureが該当する文書にクラスを割り当てられない場合、その文書は処理されません。 その企業は、誤ったクラスが割り当てられた文書が処理されるのを、FlexiLayoutを適用する、バリデーションルールを使用する、または手動で誤りを修正することで防ぐことができます。 この例では、該当する文書をできるだけ多く再現率高く見つけることが重要です。 既定では、再現率と適合率のバランスバランス重視に設定されています。