Vai al contenuto principale
È necessario etichettare un certo numero di documenti per addestrare e testare una Skill. Le linee guida riportate di seguito ti aiuteranno a etichettare correttamente i tuoi documenti.
Suggerimento: Per le linee guida sull’etichettatura di documenti non strutturati, consulta la guida di Advanced Designer.

Documenti strutturati

I documenti strutturati contengono sempre lo stesso tipo di informazioni nelle stesse posizioni. Un esempio di documenti strutturati sono i moduli preformattati. Dovrai etichettare solo alcuni documenti di esempio per l’addestramento, poiché il loro layout non varia. Usa le seguenti linee guida quando etichetti documenti strutturati:
  • Assicurati di specificare con precisione la regione di ciascun field, poiché i soli valori del field non sono sufficienti per l’addestramento.
  • Per delimitare la regione di un field, non fare clic sul suo valore, ma delimita l’intero segnaposto.
  • Se un field non contiene alcun valore, delimita il segnaposto vuoto.
  • Se un field è composto da più parti, tieni premuto il tasto Shift per aggiungere le parti. Tieni presente che tutte le parti devono essere sulla stessa Pagina.
  • Se un modulo fisso contiene una tabella, delimita tutte le righe, incluse quelle vuote.
  • Se un field viene aggiunto dopo che parte dell’etichettatura è già stata eseguita, questo nuovo field deve essere etichettato su tutti i Documenti nel set di addestramento. Rivedi tutti i tuoi Documenti ed etichetta il nuovo field su tutti i Documenti in cui è presente.

Documenti semi‑strutturati

I documenti semi‑strutturati in genere contengono lo stesso tipo di informazioni o tipi simili, ma posizione, dimensioni e numero di field possono variare da documento a documento. Esempi di documenti semi‑strutturati includono bollette, ordini di pagamento e fatture. Seguire le seguenti linee guida quando si etichettano documenti semi‑strutturati:
  • Assicurarsi di specificare con precisione la regione di ciascun field, poiché i soli valori dei field non sono sufficienti per l’addestramento.
  • Per delimitare la regione di un field, fare clic sul suo valore (ovvero sulla parola o sulle parole che contiene) e la regione verrà creata automaticamente.
  • Se un field non contiene alcun valore, non creare una regione per tale field.
  • Non contrassegnare parti di parole, poiché il programma può apprendere solo su parole intere.
  • Se un field è composto da più parti, tenere premuto il tasto Shift per aggiungere le parti. Notare che tutte le parti devono trovarsi sulla stessa Pagina.
  • Se si dispone di una struttura ripetuta, analizzare prima i documenti e creare una tabella o un gruppo ripetuto. Se i documenti contengono tabelle con un’intestazione comune e valori che non hanno parole chiave accanto, creare una tabella. Se i dati sono meno strutturati e hanno parole chiave posizionate accanto ai valori, creare un gruppo con l’opzione Allow multiple items. Se i dati sono organizzati in modo diverso su documenti diversi, selezionare l’opzione più adatta alla maggior parte dei documenti.
  • Quando si etichetta una tabella, contrassegnare la prima riga, quindi fare clic su Continue table from this row, assicurandosi che l’intera tabella sia stata etichettata correttamente. Per contrassegnare le celle nella prima riga, fare clic su ciascuna cella e le colonne corrispondenti verranno create automaticamente. Procedere finché l’intera tabella non è stata contrassegnata.
Suggerimento: Se le tabelle sono grandi e le pagine del documento sono simili nell’aspetto, è possibile eliminare le pagine simili ed etichettare la prima e l’ultima Pagina e alcune pagine intermedie.
  • Non istruire il programma a cercare field all’interno della regione di un altro field, che si tratti di un field singolo (ad esempio un indirizzo) o di una cella di tabella (ad esempio “Description”). Se è necessario estrarre dati da un ampio frammento di testo, utilizzare l’Advanced Designer.
  • Se un field viene aggiunto dopo che è già stata eseguita parte dell’etichettatura, questo nuovo field deve essere etichettato su tutti i documenti nel set di addestramento. Rivedere tutti i documenti ed etichettare il nuovo field su tutti i documenti in cui compare.