Vai al contenuto principale
ABBYY Vantage offre una modalità di machine learning per l’elaborazione di documenti strutturati, ad esempio documenti in cui la posizione dei field è la stessa in ogni istanza del documento. Esempi di tali documenti includono questionari, moduli di richiesta e moduli per la dichiarazione dei redditi. Alcuni documenti strutturati possono avere più varianti, con lievi differenze nei field e nella loro posizione.

Immagini di esempio

IRS Form 1040 - 2020 IRS Form 1040 - 2019 Due varianti del modulo IRS Form 1040 per gli anni 2020 e 2019.

Creazione di Skill per documenti strutturati

Puoi creare skill per l’elaborazione di documenti strutturati sia in Vantage sia in Advanced Designer. Tuttavia, per modificarle dovrai utilizzare Advanced Designer. In Vantage, puoi creare una Skill per l’elaborazione di documenti strutturati attivando l’interruttore Fixed-form documents per quella Skill. Dovrai anche caricare ed etichettare alcuni moduli in bianco.
Nota: Per istruzioni dettagliate sulla creazione di una Skill per l’elaborazione di documenti strutturati con più varianti, vedi Setting up a Document skill for processing structured documents.
La Skill che crei in Vantage apparirà in Advanced Designer. Il relativo flusso di elaborazione dei documenti includerà un’attività Forms progettata specificamente per l’elaborazione di documenti strutturati.
Nota: Se non hai abilitato l’interruttore Fixed-form documents, il flusso di elaborazione dei documenti della tua Skill sarà composto solo dall’attività Fast Learning.
In Advanced Designer, puoi creare e modificare skill per documenti strutturati quando devi combinare l’elaborazione di documenti strutturati con altre tecnologie Vantage. In questo caso, un’attività Forms deve essere affiancata da altre attività create e configurate in Advanced Designer.
Nota: Se il tuo flusso di elaborazione dei documenti include un’attività Forms affiancata da altre attività, o se contiene più attività Forms, in Vantage le opzioni di modifica saranno limitate al cambiamento delle proprietà della Skill e l’addestramento non sarà disponibile. Per modifiche più avanzate, usa Advanced Designer.

Estrazione di dati da moduli con elementi non strutturati o strutture miste

Un documento strutturato può talvolta contenere un elemento non strutturato, come un codice a barre o un timbro posizionato in qualsiasi punto del documento, che deve comunque essere rilevato. Un altro esempio è un documento misto: una parte è strutturata, mentre un’altra è una tabella di lunghezza variabile (ad esempio, con un numero variabile di righe). Per elaborare tali documenti, utilizzare un’attività Forms seguita da un’attività che gestisca gli elementi non strutturati. Nei passaggi seguenti, utilizziamo un’attività Forms per elaborare i field strutturati e un’attività Extraction Rules per rilevare i codici a barre.

Passaggi per creare una Document Skill

  1. Apri Advanced Designer. Nella pagina iniziale, crea una nuova skill facendo clic su Create Document Skill.
  2. Vai alla scheda Activities e aggiungi un’attività Forms al flusso di elaborazione dei documenti.
  3. Fai clic su Activity Editor. Nella scheda Blank Form, carica un modulo vuoto di esempio per ciascuna variante del documento (non consigliamo di caricare più di 10 varianti). Etichetta i field da cui devono essere estratti i dati. Per le linee guida sull’etichettatura, vedi Labeling documents.
  4. Fai clic su Train Activity.
  5. Fai clic sulla scheda Test Set e carica i documenti di test compilati. Assicurati che tutti i field siano etichettati correttamente in ciascun documento. Fai clic su Test Activity. Al termine dell’operazione, rivedi i risultati.
  6. Torna alla scheda Activities e aggiungi un’attività Extraction Rules al flusso di elaborazione dei documenti.
  7. Fai clic su Activity Editor e configura l’attività Extraction Rules.
  8. Fai clic su Test Skill Using Selected Documents. Al termine dell’operazione, rivedi i risultati. Se sei soddisfatto dei risultati, pubblica la skill. In caso contrario, modifica l’etichettatura, quindi addestra e testa nuovamente l’attività.

Lavorare con tabelle e gruppi ripetuti

Durante l’elaborazione di documenti strutturati, Vantage può gestire tabelle e gruppi ripetuti se il numero massimo di righe della tabella o di istanze del gruppo è noto in anticipo e i confini della tabella o del gruppo sono fissi. È necessario etichettare tutte le righe che potrebbero presentarsi in tutte le varianti del modulo.
Nota: Nei risultati di elaborazione verranno visualizzate solo le righe contenenti dati. Le righe vuote verranno ignorate.
Se il numero di righe o di istanze in un gruppo non è noto in anticipo, è necessario utilizzare un’altra tecnologia di Vantage.
Nota: Al momento è possibile gestire solo tabelle con valori di testo. Se la tabella contiene colonne con caselle di controllo o codici a barre, utilizzare invece un gruppo ripetuto.

Estrazione dei dati da moduli e documenti non strutturati in un unico flusso

Talvolta le informazioni possono essere raccolte sia tramite moduli sia tramite documenti non strutturati. Ad esempio, le risposte a un questionario possono essere acquisite su moduli stampati oppure come documenti non strutturati redatti in forma libera. Per elaborare un insieme misto di tali documenti, utilizzare una combinazione di un’attività Forms, che elaborerà i moduli, e un’attività Fast Learning o Extraction Rules, che elaborerà i documenti non strutturati. È quindi necessario applicare un’attività Classify per separare i moduli dai documenti non strutturati.

Passaggi per creare una Document skill

  1. Apri Advanced Designer. Nella pagina iniziale, crea una nuova Skill facendo clic su Create Document Skill.
  2. Vai alla scheda Activities e aggiungi un’attività Forms al flusso di elaborazione dei documenti.
  3. Fai clic su Activity Editor. Nella scheda Blank Form, carica un modulo vuoto di esempio e applica le etichette ai field da cui devono essere estratti i dati. Per le linee guida sull’etichettatura, vedi Labeling documents.
  4. Fai clic su Train Activity.
  5. Fai clic sulla scheda Test Set e carica i documenti di test compilati. Assicurati che tutti i field siano etichettati correttamente in ogni documento. Fai clic su Test Activity. Al termine dell’operazione, rivedi i risultati.
  6. Vai alla scheda Activities e aggiungi un’attività Fast Learning al flusso di elaborazione dei documenti.
  7. Apri Activity Editor per configurare e addestrare l’attività.
  8. Vai alla scheda Activities e aggiungi un’attività Classify all’inizio del flusso di elaborazione dei documenti.
  9. Fai clic su Activity Editor e configura l’attività Classify. Dovrai creare una classe per ogni variante di documento, assegnare le classi ai tuoi documenti e addestrare l’attività.
  10. Torna alla scheda Activities e aggiungi un’attività IF per impostare una diramazione condizionale nel flusso di elaborazione dei documenti. Collega questa attività alle attività Forms e Fast Learning.
  11. Fai clic su Test Skill Using Selected Documents. Al termine dell’operazione, rivedi i risultati. Se sei soddisfatto dei risultati, pubblica la tua Skill. In caso contrario, modifica l’etichettatura e addestra nuovamente l’attività.