Vai al contenuto principale
Le skill per l’elaborazione di documenti non strutturati possono essere create solo in Advanced Designer. Il flusso di elaborazione di tali skill includerà attività mirate all’estrazione dei dati tramite NLP. Le seguenti attività supportano un numero limitato di lingue. Puoi trovare l’elenco delle lingue supportate da ciascuna attività nelle rispettive pagine:
  • Attività di segmentazione
  • Attività Deep Learning per NLP
  • Attività di riconoscimento di entità denominate (NER)
  • Attività di parsing degli indirizzi

Estrazione di entità denominate preaddestrate dall’intero documento

Supponiamo che tu debba creare una Document skill per estrarre nomi di aziende e indirizzi da documenti non strutturati, come le lettere. Per estrarre queste entità, puoi configurare un’attività Named Entities (NER), progettata per estrarre entità denominate. Se l’indirizzo deve essere suddiviso in componenti come via, città, stato, paese, codice postale ed estratto in diversi field, configura un’attività Address Parsing. Flusso attività NER

Passaggi per creare un Document skill

  1. Apri Advanced Designer. Crea una nuova skill facendo clic su Create Document Skill nella pagina iniziale.
  2. Usa la scheda Documenti che si aprirà per caricare i documenti che verranno utilizzati per configurare la skill.
  3. Una volta caricate le immagini, vai alla scheda Fields e definisci la struttura dei field per la skill creando e configurando i field che verranno estratti tramite la skill. Etichetta i documenti nella sezione Reference.
  4. Vai alla scheda Activities. Crea un’attività Named Entities (NER) e specifica i field che verranno utilizzati per archiviare le entità denominate estratte. Mappa le entità denominate sui field selezionati.
  5. Se hai un field che contiene un indirizzo e vuoi suddividerlo in componenti, crea un’attività Address Parsing e specifica i field che verranno utilizzati per archiviare i componenti dell’indirizzo estratti. Mappa i componenti dell’indirizzo sui field selezionati.
  6. Verifica la skill facendo clic su Test Skill Using Selected Documents e analizza i risultati ottenuti.
  7. Quando i risultati dei test sono soddisfacenti, pubblica la skill.

Estrazione di entità denominate pre-addestrate da determinati paragrafi

Supponi che l’entità denominata che desideri estrarre si trovi sempre nello stesso paragrafo. Ad esempio, se devi estrarre un importo da un paragrafo sul prezzo di acquisto che fa parte di un contratto di compravendita, utilizza innanzitutto l’attività Segmentation per estrarre il paragrafo di destinazione, quindi l’attività Named Entities (NER) per estrarre il field mirato. I dati mirati dovrebbero rappresentare un’entità denominata supportata da un’attività Named Entities (NER) o Address Parsing, ad esempio nomi, indirizzi e date. Puoi anche estrarre il paragrafo di destinazione utilizzando le attività Fast Learning ed Extraction Rules. Per farlo, verifica innanzitutto che il blocco di testo venga estratto correttamente da un’attività Fast Learning o Extraction Rules, quindi crea e configura un’attività Named Entities (NER) o Address Parsing. Se il paragrafo di destinazione contiene anche altre entità denominate dello stesso tipo che non devono essere estratte, fai riferimento al seguente caso d’uso. Le attività pre-addestrate sono un buon punto di partenza poiché sono semplici da configurare e non richiedono training. Tuttavia, una rete neurale addestrata sui tuoi documenti può offrire un’accuratezza di estrazione superiore. Se disponi di un ampio set di documenti, potresti anche provare lo scenario successivo e scegliere quello che offre prestazioni migliori sui tuoi documenti. Segmentation with NER and Address Parsing

Passaggi per creare una Document Skill

  1. Apri Advanced Designer. Crea una nuova skill facendo clic su Create Document Skill nella pagina iniziale.
  2. Usa la scheda Documents che si aprirà per caricare i documenti che verranno utilizzati per configurare la skill.
  3. Dopo aver caricato le immagini, vai alla scheda Fields e definisci la struttura dei field per la skill creando e configurando i field che verranno estratti tramite la skill. Etichetta i documenti nella sezione Reference.
  4. Vai alla scheda Activities, crea un’attività di Segmentation e specifica i field che verranno utilizzati per archiviare i paragrafi di destinazione.
  5. Apri l’Activity Editor, configura e addestra l’attività di Segmentation.
  6. Torna alla scheda Activities, crea un’attività di Named Entities (NER) e specifica un field di origine, nonché i field che verranno utilizzati per archiviare le entità denominate estratte. Mappa le entità denominate ai field selezionati.
  7. Se hai un field che contiene un indirizzo e desideri suddividerlo nelle sue componenti, crea un’attività di Address Parsing e specifica un field di origine, nonché i field che verranno utilizzati per archiviare le componenti dell’indirizzo estratte. Mappa le componenti dell’indirizzo ai field selezionati.
  8. Verifica la skill facendo clic su Test Skill Using Selected Documents e analizza i risultati.
  9. Quando i risultati dei test sono soddisfacenti, pubblica la skill.

Estrazione di entità denominate personalizzate

Supponiamo che tu debba estrarre il nome di un’organizzazione da un paragrafo che contiene informazioni su entrambe le parti dell’accordo. Inoltre, devi estrarre un indirizzo e‑mail. In questo caso, dovresti prima usare l’attività Segmentation per estrarre il paragrafo di interesse. Tuttavia, non puoi usare l’attività Named Entities (NER), perché estrarrà i nomi di entrambe le organizzazioni dal paragrafo di interesse e, inoltre, non è addestrata per estrarre indirizzi e‑mail. In questo caso, usa invece l’attività Deep Learning per NLP. Puoi anche adottare questo scenario per migliorare la precisione di estrazione delle entità denominate preaddestrate. Puoi testare sia un’attività preaddestrata sia l’attività Deep Learning e quindi scegliere quella che offre prestazioni migliori sui tuoi documenti. Tieni presente che servono molti documenti per utilizzare questa attività (il numero minimo è 50 documenti, ma consigliamo di averne almeno 150). Potresti anche voler testare entrambe le attività (Named Entities (NER) e Deep Learning for NLP) e quindi scegliere l’attività che offre prestazioni migliori sui tuoi documenti. Segmentation with Deep Learning

Passaggi per creare una Document skill

  1. Apri Advanced Designer. Crea una nuova skill facendo clic su Create Document Skill nella pagina iniziale.
  2. Usa la scheda Documents che si aprirà per caricare i documenti che verranno utilizzati per configurare la skill.
  3. Dopo aver caricato le immagini, vai alla scheda Fields e definisci la struttura dei field per la skill creando e configurando i field che verranno estratti dalla skill. Etichetta i documenti nella sezione Reference.
  4. Vai alla scheda Activities, crea un’attività Segmentation e specifica i field che verranno utilizzati per archiviare i paragrafi di destinazione.
  5. Apri l’Activity Editor, configura e addestra l’attività Segmentation.
  6. Torna alla scheda Activities, crea un’attività Deep Learning for NLP e specifica i field che dovranno essere estratti da questa attività.
  7. Apri l’Activity Editor per configurare e addestrare l’attività Deep Learning.
  8. Metti alla prova la skill facendo clic su Test Skill Using Selected Documents e analizza i risultati ottenuti.
  9. Quando i risultati dei test sono sufficientemente buoni, pubblica la skill.