Vai al contenuto principale
È necessario etichettare un certo numero di documenti per addestrare e testare una Skill. Le linee guida riportate di seguito ti aiuteranno a etichettare correttamente i tuoi documenti.
Suggerimento: Per le linee guida sull’etichettatura di documenti non strutturati, consulta la guida di Advanced Designer.

Documenti strutturati

I documenti strutturati contengono sempre lo stesso tipo di informazioni nelle stesse posizioni. Un esempio sono i moduli preformattati. Dovrai etichettare solo alcuni documenti di esempio per l’addestramento, poiché non ci sono varianti nel loro layout. Segui queste linee guida quando etichetti documenti strutturati:
  • Assicurati di specificare con precisione l’area di ciascun field, poiché i soli valori del field non sono sufficienti per l’addestramento.
  • Per delimitare l’area di un field, non fare clic sul suo valore, ma delimita l’intero segnaposto.
  • Se un field non contiene alcun valore, delimita il segnaposto vuoto.
  • Se un field è composto da più parti, tieni premuto il tasto Shift per aggiungerle. Nota che tutte le parti devono trovarsi sulla stessa Pagina.
  • Se un modulo fisso contiene una tabella, delimita tutte le righe, incluse quelle vuote.
  • Se un field viene aggiunto dopo che parte dell’etichettatura è già stata eseguita, questo nuovo field deve essere etichettato in tutti i documenti del set di addestramento. Riesamina tutti i tuoi documenti ed etichetta il nuovo field in tutti i documenti in cui è presente.

Documenti semi‑strutturati

I documenti semi‑strutturati in genere contengono gli stessi o simili tipi di informazioni, ma posizione, dimensione e numero di field possono variare da documento a documento. Esempi di documenti semi‑strutturati includono bollette, ordini di pagamento e fatture. Utilizzare le seguenti linee guida quando si etichettano documenti semi‑strutturati:
  • Assicurarsi di specificare con precisione l’area di ciascun field, poiché i soli valori dei field non sono sufficienti per l’addestramento.
  • Per delimitare l’area di un field, fare clic sul suo valore (cioè sulla parola o sulle parole che contiene) e l’area verrà creata automaticamente.
  • Se un field non contiene alcun valore, non creare un’area per tale field.
  • Non delimitare parti di parole, poiché il programma può apprendere solo su parole intere.
  • Se un field è composto da più parti, tenere premuto il tasto Shift per aggiungere le parti. Notare che tutte le parti devono trovarsi sulla stessa Pagina.
  • Se è presente una struttura ripetuta, analizzare prima i documenti e creare una tabella o un gruppo ripetuto. Se i documenti contengono tabelle con un’intestazione comune e valori che non hanno parole chiave accanto, creare una tabella. Se i dati sono meno strutturati e hanno parole chiave posizionate accanto ai valori, creare un gruppo con l’opzione Allow multiple items. Se i dati sono organizzati in modo diverso su documenti diversi, selezionare l’opzione più adatta alla maggior parte dei documenti.
  • Quando si etichetta una tabella, contrassegnare la prima riga, quindi fare clic su Continue table from this row, verificando che l’intera tabella sia stata etichettata correttamente. Per delimitare le celle nella prima riga, fare clic sulle celle una alla volta e le colonne corrispondenti verranno create automaticamente. Procedere finché l’intera tabella non è stata contrassegnata.
Suggerimento: Se le tabelle sono grandi e le pagine del documento sono simili nell’aspetto, è possibile eliminare le pagine simili ed etichettare la prima e l’ultima pagina e alcune pagine intermedie.
  • Non istruire il programma a trovare field all’interno dell’area di un altro field, indipendentemente dal fatto che si tratti di un field individuale (ad esempio un indirizzo) o di una cella di tabella (ad esempio “Description”). Se è necessario estrarre dati da un ampio frammento di testo, utilizzare l’Advanced Designer.
  • Se un field viene aggiunto dopo che una parte dell’etichettatura è già stata eseguita, questo nuovo field deve essere etichettato su tutti i documenti del set di addestramento. Rivedere tutti i documenti ed etichettare il nuovo field su tutti quelli in cui è presente.