Vai al contenuto principale
Può essere difficile specificare le proprietà di estrazione dei field nei casi in cui una singola Document skill debba elaborare documenti che variano in modo significativo per quanto riguarda il posizionamento dei field (pur essendo dello stesso tipo). Ad esempio, la stessa skill può essere utilizzata per elaborare fatture di diversi Fornitori, in cui gli stessi field possono trovarsi in posizioni che differiscono da fornitore a fornitore. Per migliorare la qualità di estrazione per tali skill, è possibile classificare i documenti in classi, ossia sottogruppi di documenti (con proprietà comuni) per un singolo tipo di documento, e configurare attività di estrazione separate per ciascuna. La classificazione dei documenti in classi può essere necessaria anche quando occorre migliorare la qualità di estrazione per una delle classi. Ad esempio, una singola skill può essere utilizzata per elaborare estratti conto bancari prodotti da diverse banche. Un tipo di estratto conto può avere una qualità di estrazione inferiore rispetto agli altri. Per migliorare la qualità di estrazione per quella skill, è possibile suddividere gli estratti conto in classi e configurare un’attività Extraction Rules per la classe con qualità di estrazione insoddisfacente. L’attività Classify By Text and Image è pensata per suddividere i documenti di una skill in classi che richiedono la creazione e la configurazione di attività di estrazione dedicate.

Panoramica della configurazione

Per creare e configurare un’attività Classify By Text and Image, segui questi passaggi:
  1. Crea un’attività Classify By Text and Image nel flusso di elaborazione dei documenti.
  2. Carica le immagini, crea le classi e assegna ai documenti le classi attese.
  3. Addestra l’attività e analizza i risultati dell’addestramento.
  4. Modifica le proprietà se è necessario migliorare i risultati della classificazione.

Creazione e configurazione tramite la scheda Activities

Crea un’attività Classify By Text and Image nel workflow. Alla sua creazione, nella struttura della skill verrà creato un field per registrare i risultati della classificazione. Il valore di questo field verrà utilizzato per classificare i documenti. Questo field verrà visualizzato nella struttura dei field della skill, tuttavia sarà contrassegnato come nascosto e non sarà modificabile.
Nota: Un’attività Classify By Text and Image non restituisce un valore di attendibilità per una classe: restituisce solo il suo nome.
Per aprire l’Activity Editor, fai clic su Activity Editor oppure fai doppio clic sul blocco dell’attività.

Configurazione tramite l’Editor di attività

Passaggio 1: Caricare i documenti

Caricare i documenti da utilizzare per configurare l’attività facendo clic su Upload nella barra degli strumenti e selezionando un metodo di caricamento: a. Upload Documents… Utilizzare la finestra di dialogo che si apre per selezionare i documenti appropriati. I documenti selezionati verranno visualizzati nell’elenco No Class. b. Upload Folder Like Classes… Utilizzare la finestra di dialogo che si apre per selezionare una cartella che contiene sottocartelle con immagini. Ogni sottocartella deve contenere immagini di una singola classe. Caricando i documenti in questo modo, verranno create automaticamente classi corrispondenti alle sottocartelle e i documenti nelle rispettive sottocartelle saranno classificati come appartenenti a quella classe. In questo modo non sarà necessario creare manualmente le classi nell’Activity Editor.

Passaggio 2: Crea classi

Crea classi corrispondenti ai diversi tipi di documenti da elaborare facendo clic su Create Class nella barra degli strumenti oppure su Create nel riquadro Assign class. Se i documenti sono stati caricati utilizzando Upload folder like classes, assicurati che tutte le classi necessarie siano state create.

Passaggio 3: Classificare i Documenti

Classifica i tuoi Documenti utilizzando uno dei seguenti metodi:
  • Seleziona tutti i Documenti appartenenti a una singola classe nell’elenco e fai clic sul nome della classe corrispondente nel riquadro Assegna classe.
  • Se una classe appropriata non è ancora stata creata, seleziona tutti i Documenti pertinenti nell’elenco e crea una classe facendo clic su Crea classe nella barra degli strumenti oppure su Crea nel riquadro Assegna classe.
  • Seleziona tutti i Documenti appartenenti a una singola classe e trascinali nell’elenco corrispondente a quella classe.

Opzioni aggiuntive

Se necessario, puoi modificare l’orientamento delle pagine del documento usando il menu a discesa Rotate nella barra degli strumenti. Puoi selezionare una delle seguenti opzioni: Rotate All Pages Left, Rotate All Pages Right o Rotate All Pages 180º. Per cambiare modalità di visualizzazione, usa i seguenti pulsanti nella barra degli strumenti:
  • Vista elenco. Mostra i documenti come elenco
  • Vista miniature. Mostra i documenti come miniature
Per visualizzare l’immagine completa di un documento mostrato nella vista miniature, usa il pulsante di anteprima.

Addestrare un classificatore e visualizzare i risultati della classificazione

Una volta classificati i documenti, avviate l’addestramento dell’attività utilizzando il pulsante Train Activity. Al termine, le statistiche sui risultati della classificazione verranno visualizzate nella scheda Results. L’analisi di queste statistiche aiuta a individuare le classi problematiche e a valutare la qualità generale del classificatore.

Statistiche generali

Il riquadro superiore mostra le statistiche generali per tutti i documenti e le classi dell’attività. Queste statistiche aiutano a valutare la qualità complessiva del tuo classificatore:
  • accuracy. La percentuale di documenti il cui class expected corrisponde alla classe assegnata dal programma.
  • F-Measure. Usata per valutare la precisione e la completezza della classificazione.
  • Recall. Il rapporto tra i documenti correttamente classificati come una specifica classe e tutti i documenti di quella classe.
  • Precision. Il rapporto tra i documenti correttamente classificati come una specifica classe e tutti i documenti classificati come quella classe (sia correttamente sia erroneamente).

Statistiche specifiche per classe

Nel riquadro Classi puoi visualizzare le statistiche per ciascuna classe. Per ogni classe sono riportati la percentuale di documenti in cui la classe attesa corrisponde a quella assegnata dal programma, nonché il numero di documenti con classe assegnata correttamente e in modo errato. Per visualizzare i documenti con classe assegnata in modo errato, seleziona la classe di interesse nel riquadro Classi ed espandi l’elenco dei documenti assegnati in modo errato (visualizzato in rosso). L’analisi di questi documenti può aiutarti a capire perché il programma abbia assegnato a uno specifico documento una classe diversa da quella attesa. Ciò può accadere spesso se la classe attesa è stata impostata in modo errato fin dall’inizio, ad esempio quando documenti di classi diverse sono troppo simili.

Correzione degli errori di classificazione

Classi attese non corrette

Una possibile causa di classificazione errata è l’assegnazione non corretta delle classi attese. Per correggere questo tipo di errore, assegna semplicemente la classe attesa corretta a un documento. Nella scheda Results, seleziona una classe che è stata assegnata in modo errato a un documento. Espandi l’elenco dei documenti con classi assegnate in modo errato, seleziona tutti i documenti di quella classe e assegna loro la classe attesa corretta dall’elenco nel riquadro Assign class.

Documenti simili in classi diverse

Un altro possibile motivo degli errori di classificazione è la presenza di documenti molto simili suddivisi in classi diverse. Se il classificatore confonde le classi per due varianti di documento simili, molto probabilmente queste varianti dovrebbero essere inserite nella stessa classe con un’unica attività di estrazione. In questo caso, rivedi il numero di classi e unisci in un’unica classe quelle che risultano confuse. Le differenze tra le varianti andranno poi descritte tramite regole in un’attività Extraction Rules.

Dati di addestramento insufficienti

Un altro possibile motivo degli errori di classificazione è la scarsità di documenti in un set di classi. In questo caso, è possibile migliorare la qualità del classificatore aggiungendo altri documenti al set. Dopo aver aggiunto nuovi documenti o aver modificato le classi, sarà necessario riaddestrare il classificatore.