Vai al contenuto principale
È necessario etichettare un certo numero di documenti per addestrare e testare una Skill. A tal fine, selezionare le regioni del documento che contengono i valori dei Field. Per selezionare una regione, eseguire una delle seguenti operazioni:
  • Passare il cursore su una parola e fare clic su di essa. Verrà creata una regione e la parola verrà copiata nel Field. Utilizzare questo metodo per etichettare field che contengono una sola parola.
  • Disegnare un rettangolo attorno a alcune parole. Tutte le parole all’interno di questo rettangolo verranno copiate nel Field. Si consiglia di utilizzare questo metodo per etichettare documenti semi‑strutturati.
  • Selezionare una regione facendo clic sulla prima parola della sequenza e, tenendo premuto il pulsante sinistro del mouse, trascinare il cursore fino all’ultima parola della sequenza. Si consiglia di utilizzare questo metodo per etichettare documenti non strutturati.
Le linee guida riportate di seguito vi aiuteranno a etichettare correttamente i documenti in base al loro tipo.

Documenti strutturati

I documenti strutturati contengono sempre lo stesso tipo di informazioni nelle medesime posizioni. Un esempio di documenti strutturati sono i moduli preformattati. Per l’addestramento sarà sufficiente etichettare solo alcuni documenti di esempio, poiché il loro layout non varia. Segui le linee guida riportate di seguito quando etichetti documenti strutturati.
  • Assicurati di specificare con precisione la regione di ciascun field, poiché i soli valori dei field non sono sufficienti per l’addestramento.
  • Per delimitare la regione di un field, non fare clic sul suo valore: delimita invece l’intero segnaposto.
  • Se un field non contiene alcun valore, delimita il segnaposto vuoto.
  • Se un field è composto da più parti, tieni premuto il tasto Shift per aggiungere le parti. Tieni presente che tutte le parti devono trovarsi sulla stessa Pagina.
  • Se un modulo fisso contiene una tabella, delimita tutte le righe, comprese quelle vuote.
  • Se un field viene aggiunto dopo che è già stata effettuata parte dell’etichettatura, questo nuovo field deve essere etichettato in tutti i documenti del set di addestramento. Rivedi tutti i documenti ed etichetta il nuovo field in tutti i documenti in cui è presente.

Documenti semi‑strutturati

I documenti semi‑strutturati generalmente contengono gli stessi o tipi simili di informazioni, ma la posizione, la dimensione e il numero di field possono variare da documento a documento. Esempi di documenti semi‑strutturati includono bollette, ordini di pagamento e fatture. Seguire le linee guida riportate di seguito quando si etichettano i documenti semi‑strutturati.
  • Assicurarsi di specificare con precisione la regione di ciascun field, poiché i soli valori dei field non sono sufficienti per l’addestramento.
  • Per delimitare la regione di un field, fare clic sul relativo valore (ad esempio la parola o le parole che contiene) e la regione verrà creata automaticamente.
  • Se un field non contiene alcun valore, non creare una regione per tale field.
  • Non contrassegnare parti di parole, poiché il programma può apprendere solo da parole intere.
  • Se un field è composto da più parti, tenere premuto il tasto Shift per aggiungerle. Si noti che tutte le parti devono trovarsi sulla stessa Pagina.
  • Se si dispone di una struttura ripetuta, analizzare prima i documenti e creare una tabella o un gruppo ripetuto. Se i documenti contengono tabelle con un’intestazione comune e valori che non hanno parole chiave accanto, creare una tabella. Se i dati sono meno strutturati e hanno parole chiave posizionate accanto ai valori, creare un gruppo con l’opzione Consenti più elementi. Se i dati sono organizzati in modo diverso su documenti differenti, selezionare l’opzione che si adatta meglio alla maggior parte dei documenti.
  • Durante l’etichettatura di una tabella, contrassegnare la prima riga, quindi fare clic su Continua tabella da questa riga, assicurandosi che l’intera tabella sia stata etichettata correttamente. Per delimitare le celle nella prima riga, fare clic sulle celle una alla volta e le colonne corrispondenti verranno create automaticamente. Procedere finché l’intera tabella non è stata contrassegnata.
Se le tabelle sono grandi e le pagine del documento sono simili nell’aspetto, è possibile eliminare le pagine simili ed etichettare la prima e l’ultima pagina e alcune pagine intermedie.
  • Non istruire il programma a trovare field all’interno della regione di un altro field, indipendentemente dal fatto che si tratti di un field individuale (ad es. un indirizzo) o di una cella di tabella (ad es. “Description”). Se è necessario estrarre dati da un ampio frammento di testo, utilizzare una sequenza di attività. Innanzitutto, utilizzare un’attività progettata per estrarre dati da documenti semi‑strutturati e addestrarla a trovare la regione desiderata. Successivamente, per estrarre field specifici da questa regione, utilizzare un’attività progettata per estrarre dati dal testo (NLP) o implementare regole di script personalizzate.
  • Se un field viene aggiunto dopo che è già stata eseguita parte dell’etichettatura, questo nuovo field deve essere etichettato su tutti i documenti nel set di addestramento. Rivedere tutti i documenti ed etichettare il nuovo field su tutti i documenti in cui è presente.

Documenti non strutturati

I documenti non strutturati contengono informazioni che non seguono alcuna struttura. Esempi di documenti non strutturati includono contratti, articoli scientifici e messaggi e‑mail. Attenersi alle seguenti linee guida quando si etichettano documenti non strutturati.
  • Assicurarsi di specificare con precisione la regione di ciascun field, poiché i soli valori dei field non sono sufficienti per l’addestramento.
  • Quando si etichettano segmenti (ad esempio i field addestrati nell’attività Segmentation), le regioni devono includere uno o più paragrafi interi. Un segmento non può includere solo una parte di un paragrafo.
  • Per delimitare la regione di un field, fare clic sul suo valore (ad esempio, la parola o le parole che contiene) e la regione verrà creata automaticamente.
  • Se un field non contiene alcun valore, non creare una regione per quel field.
  • Non contrassegnare parti di parole, poiché il programma può apprendere solo su parole intere.
Se una parola è seguita da un segno di punteggiatura (ad esempio, ”… e Mary Jones, (“Borrower…”)), regolare la regione in modo che non includa il segno di punteggiatura.
  • A volte, la regione di un field può estendersi alla Pagina successiva (ad esempio, una clausola in un contratto). In questo caso, etichettare una parte del field sulla prima Pagina, quindi continuare l’etichettatura sulla Pagina successiva tenendo premuto il tasto Shift.
  • Quando si crea una regione per un field all’interno della regione di un altro field (ad esempio, per delimitare un field all’interno di un segmento), selezionare il field desiderato e iniziare a etichettarlo all’interno della regione dell’altro field. In questo modo non verrà selezionata la regione esistente, ma verrà creata una nuova regione per il field selezionato.