Vai al contenuto principale
Durante l’addestramento di un classificatore vengono raccolte statistiche sui risultati della classificazione. Analizzarle aiuta a capire come migliorare la qualità del classificatore. Le statistiche di classificazione sono disponibili nella scheda Result dello Skill Designer di classificazione e vengono aggiornate automaticamente ogni volta che il classificatore viene addestrato. Schede di analisi della Classification Skill Questa scheda contiene le seguenti informazioni:
  • Accuratezza generale della classificazione. Percentuale di documenti classificati correttamente rispetto al numero totale di documenti del set.
  • Accuratezza della classificazione per ciascuna classe. Percentuale di documenti classificati correttamente per una specifica classe.
  • Numero di documenti classificati correttamente e numero di documenti classificati erroneamente per ciascuna classe.
  • Data e ora dell’ultimo addestramento del classificatore.
La tabella dei risultati contiene tutte le classi utente non vuote (esclusa No class). Le classi nella tabella sono ordinate innanzitutto in base all’accuratezza del classificatore (dalla peggiore alla migliore), poi in base al numero di documenti nella classe e infine alfabeticamente per nome. Se non è possibile visualizzare contemporaneamente sullo schermo tutte le righe della tabella, viene mostrata una barra di scorrimento. Facendo clic su una riga della tabella dei risultati si apre la classe corrispondente nella scheda Documents. La modifica del nome di una classe nella scheda Documents lo aggiorna anche nella scheda Result. Se si elimina una classe dopo l’addestramento del classificatore corrispondente, il nome della classe viene visualizzato in grigio nella scheda Result. La riga che contiene tale classe viene rimossa dalla tabella dei risultati solo quando il classificatore viene addestrato nuovamente.

Errori di classificazione

La maggior parte dei casi di classificazione errata è dovuta a errori commessi durante la creazione del set di training (ad esempio, classi di riferimento assegnate in modo errato o un numero insufficiente di Pagine specifiche in un set di documenti).

Classi di riferimento assegnate in modo errato

Per correggere questo tipo di errore, assegna la classe corretta a quel particolare Document del set di training e riaddestra il classificatore come segue:
  1. Vai alla scheda Documenti facendo clic su Review Prediction in Document Set nel riquadro Actions. In alternativa, fai clic sulla riga con la classe appropriata nella tabella dei risultati.
  2. Seleziona un Document a cui è stata assegnata in modo errato una classe di riferimento.
  3. Fai clic sul nome della classe corretta nel riquadro Actions.
  4. Ripeti i passaggi 2 e 3 per ogni Document a cui è stata assegnata in modo errato una classe di riferimento.
  5. Fai clic sul pulsante Train nel riquadro Actions.

Numero insufficiente di pagine nel set di documenti

Una qualità insufficiente del classificatore può essere dovuta ai seguenti fattori:
  • Numero insufficiente di documenti caricati
  • Distribuzione significativamente disomogenea dei documenti tra le classi
  • Numero insufficiente di esempi delle varianti di documento più comuni per la classe in questione
In questo caso, la qualità del classificatore può essere migliorata aggiungendo i documenti mancanti al set di training. Consigliamo di caricare tra 100 e 1000 documenti per ogni classe. Suggeriamo inoltre che il set di documenti includa documenti di esempio per le varianti di documento più comuni di ciascuna classe in un rapporto approssimativamente uno a uno. Dopo aver aggiunto i nuovi documenti al set di training, assegna una classe a ciascuno e riaddestra il classificatore.

Classi facilmente confuse

Gli errori di classificazione possono essere causati anche da classi che non differiscono in modo significativo tra loro in termini di parametri. In questo caso, è opportuno rivedere il numero di classi e, se necessario, unificare le classi che generano confusione in un’unica classe. Ad esempio, una classe per le fatture inferiori a 10.000 USD e una per le fatture superiori a 10.000 USD possono essere confuse se l’unica differenza significativa è il Totale dovuto. In questo caso, queste classi devono essere unificate in un’unica classe per la Skill di classificazione, e le fatture andranno eventualmente separate solo in una fase successiva, se necessario (ad esempio quando il Totale dovuto è già stato estratto dalla fattura).

Vedi anche