Vai al contenuto principale
Quando si estraggono dati da documenti semi‑strutturati, Advanced Designer viene utilizzato per set di documenti complessi (ad esempio quelli che contengono molte varianti di documento molto diverse tra loro). Il flusso di elaborazione dei documenti includerà attività mirate all’estrazione di dati da documenti semi‑strutturati.

Nuove varianti di documenti possono comparire dopo lo sviluppo

Supponiamo che tu debba elaborare documenti dello stesso tipo ma con layout diversi e che non sia possibile fornire tutte le varianti durante lo sviluppo della skill. Questo può accadere, ad esempio, quando crei una skill per elaborare fatture di fornitori diversi. In genere, ogni fornitore utilizza un proprio modello di fattura, e puoi essere certo che in futuro ne compariranno di nuovi. Se disponi di un numero sufficiente di esempi di documenti, puoi usare un’attività di Deep Learning seguita da un’attività di Fast Learning. L’attività di Deep Learning si occuperà di elaborare varianti di documenti impreviste, mentre l’attività di Fast Learning imparerà le varianti specifiche di documento fornite dal cliente, garantendo una qualità ancora superiore per tali documenti. L’attività di Fast Learning può anche essere addestrata tramite il ciclo di feedback di Online Learning a partire dalla revisione manuale. Deep Learning with Fast Learning

Passaggi per creare una Document Skill

  1. Apri Advanced Designer. Crea una nuova skill facendo clic su Create Document Skill nella pagina iniziale.
  2. Usa la scheda Documents che si aprirà per caricare i documenti che verranno utilizzati per configurare la skill.
  3. Dopo aver caricato le immagini, vai alla scheda Fields e definisci la struttura dei field della skill creando e configurando i field che verranno estratti tramite la skill. Etichetta i documenti nella sezione Reference.
  4. Vai alla scheda Activities e aggiungi un’attività Deep Learning per documenti semi‑strutturati al flusso di elaborazione.
  5. Apri l’Activity Editor per configurare e addestrare l’attività Deep Learning. Tieni presente che il set di documenti utilizzato per l’addestramento di questa attività dovrebbe contenere almeno 100 documenti etichettati.
  6. Torna alla scheda Activities e aggiungi un’attività Fast Learning al flusso di elaborazione.
  7. Apri l’Activity Editor per configurare e addestrare l’attività.
  8. Verifica la skill facendo clic su Test Skill Using Selected Documents e analizza i risultati.
  9. Quando i risultati del test sono sufficientemente buoni, pubblica la skill.

Alcuni documenti contengono strutture che non possono essere estratte con il Machine Learning

Supponiamo che la maggior parte delle varianti nel tuo set di documenti possa essere gestita con le attività Deep Learning e Fast Learning. Tuttavia, alcuni documenti potrebbero avere tabelle annidate o essere, in qualche altro modo, completamente diversi da tutti gli altri documenti usati per l’addestramento. Per gestire tali documenti, devi separarli dal set principale utilizzando l’attività Classification:
  • Usa l’attività Classify By Company se le varianti di documento sono emesse da aziende diverse e il nome e/o l’indirizzo dell’azienda è stampato sul documento. Ad esempio, quando elabori estratti conto bancari provenienti da banche diverse, puoi facilmente fornire un elenco in un database di tali banche, gestendo tutte le varianti che richiedono un trattamento separato.
  • Usa l’attività Classify By Text and Image in tutti gli altri casi. Questa tecnologia di classificazione multimodale utilizza testo, struttura spaziale e pattern di immagine per distinguere tra le diverse varianti di documenti, quindi riconoscerà facilmente quelle che si discostano dallo standard.
Usa un’attività IF per diramare il flusso di elaborazione e separare le varianti con qualità di elaborazione scarsa (ad esempio, come menzionato in precedenza, documenti con tabelle annidate), quindi usa un’attività Extraction Rules per estrarre field e tabelle da tali documenti. IF con Deep Learning ed Extraction Rules

Passaggi per creare una Document Skill

  1. Apri Advanced Designer. Crea una nuova Skill facendo clic su Create Document Skill nella pagina iniziale.
  2. Usa la scheda Documenti che si apre per caricare i documenti da utilizzare per configurare la tua Skill. Per assicurarti che il set di documenti sia sufficiente per creare un classificatore, aggiungi un numero approssimativamente uguale di documenti per ciascuna variante.
  3. Una volta caricate le immagini, vai alla scheda Fields e definisci la struttura dei field per la Skill creando e configurando i field che verranno estratti dalla Skill. Etichetta i documenti nella sezione Reference.
  4. Vai alla scheda Activities e aggiungi un’attività Classify al flusso di elaborazione del documento.
  5. Apri l’Activity Editor e configura l’attività Classify. Per farlo, crea una classe corrispondente per ciascuna variante, assegna queste classi ai documenti e addestra l’attività.
  6. Torna alla scheda Activities e imposta una diramazione condizionale per il flusso di elaborazione aggiungendo un’attività IF, oltre ad attività separate per elaborare ciascuna variante di documento.
  7. Configura le attività create.
  8. Verifica la tua Skill facendo clic su Test Skill Using Selected Documents e analizza i risultati.
  9. Quando i risultati dei test sono soddisfacenti, pubblica la tua Skill.

Non hai abbastanza documenti per usare il Machine Learning

Supponiamo che tu debba estrarre dati da un numero ridotto di varianti di documenti, ma non abbia abbastanza documenti per addestrare un’attività di Deep Learning; tuttavia, possiedi una conoscenza specialistica che ti consente di descrivere i principi fondamentali dell’estrazione dei dati per ciascuna variante. Ad esempio, se stai creando una Skill per elaborare moduli fiscali di anni diversi, puoi suddividere tutti i tuoi documenti in varianti differenti utilizzando un’attività Classify. A questa dovrebbe seguire un insieme di attività Extraction Rules, in cui ciascuna è adattata a una specifica variante di documento. Aggiungi una Fast Learning activity se vuoi che Vantage continui ad addestrare la tua Skill. Multiple Extraction Rules

Passaggi per creare una Document skill

  1. Apri Advanced Designer. Crea una nuova skill facendo clic su Create Document Skill nella pagina iniziale.
  2. Usa la scheda Documenti che si aprirà per caricare i documenti da utilizzare per configurare la skill. Per assicurarti che il set di documenti sia adeguato alla creazione di un classificatore, aggiungi un numero approssimativamente uguale di documenti per ciascuna variante.
  3. Dopo aver caricato le immagini, vai alla scheda Fields e definisci la struttura dei field per la skill creando e configurando i field che verranno estratti. Etichetta i documenti nella sezione Reference.
  4. Vai alla scheda Activities e aggiungi un’attività Classify al flusso di elaborazione dei documenti.
  5. Apri l’Activity Editor e configura l’attività Classify. Per farlo, crea una classe corrispondente per ciascuna variante, assegna queste classi ai documenti e addestra l’attività.
  6. Torna alla scheda Activities e crea un’attività Extraction Rules. Aggiungi altre attività Extraction Rules a questo elemento del workflow. Configura le condizioni di diramazione selezionando il field compilato dall’attività Classify e mappandone i valori alle attività Extraction Rules. Puoi anche saltare questo passaggio per i documenti di alcune classi che non richiedono regole di estrazione specifiche.
  7. Configura le attività di estrazione create.
  8. Verifica la skill facendo clic su Test Skill Using Selected Documents e analizza i risultati.
  9. Quando i risultati dei test sono soddisfacenti, pubblica la skill.