Vai al contenuto principale
Una Document skill consente di estrarre i valori dei Field da documenti strutturati e semi‑strutturati di un singolo tipo. I documenti dello stesso tipo hanno esattamente lo stesso set di Field e Regole di validazione, nonché la stessa struttura; ad esempio, fatture, contratti e liste di spedizione sono tre tipi di documenti. I documenti strutturati sono moduli in cui la posizione dei Field è la stessa in ogni istanza del documento. Esempi di documenti strutturati includono questionari, moduli di richiesta e moduli per la dichiarazione dei redditi. È possibile creare e modificare skill per documenti strutturati anche in Advanced Designer quando è necessario combinare l’elaborazione di documenti strutturati con altre tecnologie di Vantage. I documenti semi‑strutturati hanno un set specifico di Field, la cui etichettatura, il numero e la posizione variano da documento a documento dello stesso tipo. Un tipico esempio di documenti semi‑strutturati sono le fatture emesse da aziende diverse, che variano per numero e formattazione delle Righe articolo. Ogni fattura riporterà un numero della fattura e il Totale, ma la posizione esatta di queste informazioni varierà da una fattura all’altra. Per iniziare ad addestrare la tua Document skill, etichetta i Field su un documento. Man mano che addestri la tua skill, il programma inizierà a suggerire automaticamente le posizioni dei Field per facilitare il processo di etichettatura. Attualmente, solo un file può essere elaborato da una Document skill nell’ambito di una singola transaction. Se devi elaborare più file, utilizza l’attività Extract della Process skill.

Varianti del tipo di documento

I documenti dello stesso tipo presentano quasi sempre insiemi identici di field, Regole di validazione e struttura. Le varianti di un singolo tipo di documento possono differire leggermente, a seconda, ad esempio, dell’anno in cui il documento è stato emesso. I documenti di un singolo tipo possono essere elaborati da un’unica Document skill addestrata utilizzando diverse varianti di questo tipo di documento. Vantage e Advanced Designer possono gestire un numero qualsiasi di varianti all’interno di un singolo tipo di documento:
  • Per centinaia di varianti, le skill addestrate utilizzando Online Learning in Vantage saranno in grado di estrarre i dati quasi senza errori.
  • Per migliaia di varianti, le skill addestrate utilizzando l’attività Deep Learning saranno in grado di estrarre i dati con un’accuratezza compresa tra circa l’80% e il 90%, a seconda della complessità dei tipi di documento.
  • Per le varianti più importanti di un tipo di documento, le skill addestrate utilizzando le attività Fast Learning e/o Extraction Rules garantiranno un’estrazione accurata dei dati da documenti complessi.
  • Per i documenti strutturati, che presentano sempre lo stesso tipo di informazioni nelle stesse posizioni esatte, si consiglia di utilizzare fino a 10 varianti. Se un modulo fisso ha molte varianti, si consiglia di trattarle tutte come tipi di documento diversi.
Quando si addestra e si testa una skill, si consiglia quanto segue:
  • Quando si addestra una skill, utilizzare un set di documenti rappresentativo contenente almeno 2-3 documenti per ciascuna variante. Se ci sono molte varianti e il set non contiene almeno un documento per ogni variante, è possibile utilizzare l’attività Deep Learning. Questa riconosce i pattern delle immagini, la struttura spaziale dei documenti, il contenuto dei field e le etichette circostanti e può elaborare varianti che non sono state utilizzate per l’addestramento.
  • Quando si testa una skill, utilizzare una distribuzione dei documenti simile a quella del flusso reale di documenti in produzione: la percentuale di documenti di una specifica variante nel set di addestramento dovrebbe essere rappresentativa della frequenza con cui la variante compare nel flusso di documenti. Questo garantirà che la stima dell’accuratezza sia valida. Per farlo, si testano le skill utilizzando un campione casuale di documenti dal flusso reale di documenti in produzione.
  • È meglio avere un campione per variante che nessun campione.