Vai al contenuto principale

Estrazione di dati da un set di documenti misto (semi‑strutturati e non strutturati)

Supponiamo che un singolo Document skill debba elaborare sia documenti semi‑strutturati sia non strutturati. In questo caso, classifica innanzitutto i documenti nei relativi tipi utilizzando l’attività Classify By Text and Image, che combina caratteristiche testuali e geometriche ed è in grado di classificare anche immagini di qualità inferiore e documenti di classi diverse distinguibili solo da oggetti grafici, come firme o timbri. Utilizza un’attività IF per ramificare il flusso di elaborazione del documento e separare i documenti non strutturati da quelli semi‑strutturati. Ogni ramo può essere elaborato utilizzando uno degli scenari descritti nelle sezioni Processing semi-structured documents e Processing unstructured documents. Ad esempio, i documenti semi‑strutturati possono essere elaborati con un’attività Fast Learning, mentre i documenti non strutturati possono essere elaborati con una combinazione di un’attività Segmentation e di un’attività Deep Learning per NLP. Poiché i documenti descritti appartengono tutti allo stesso tipo, avranno lo stesso set di output fields. Flusso di elaborazione di documenti misti

Passaggi per creare una Document Skill

  1. Apri Advanced Designer. Crea una nuova skill facendo clic su Create Document Skill nella pagina iniziale.
  2. Usa la scheda Documents che si apre per caricare i documenti che userai per configurare la skill. Per assicurarti che il set di documenti sia sufficiente per impostare un classificatore, aggiungi un numero approssimativamente uguale di documenti per ciascuna variante.
  3. Dopo aver caricato le immagini, vai alla scheda Fields e definisci la struttura dei field per la skill creando e configurando i field che verranno estratti dalla skill. Etichetta i documenti nella sezione Reference.
  4. Vai alla scheda Activities e aggiungi un’attività Classify al flusso di elaborazione dei documenti.
  5. Apri l’Activity Editor e configura l’attività Classify. Per farlo, crea una classe per ciascuna variante, assegna queste classi ai documenti e addestra l’attività.
  6. Torna alla scheda Activities e configura i rami condizionali del flusso di elaborazione aggiungendo un’attività IF, oltre ad attività separate per elaborare ogni variante di documento.
  7. Configura e addestra le attività create.
  8. Metti alla prova la skill facendo clic su Test Skill Using Selected Documents e analizza i risultati.
  9. Quando i risultati dei test sono soddisfacenti, pubblica la skill.

Estrazione del testo dalle celle di tabella nei documenti semi-strutturati

Supponiamo che tu stia estraendo dati da documenti semi‑strutturati con tabelle e che sia necessario estrarre non solo il testo di ciascuna cella, ma anche specifici valori numerici presenti nel testo della cella. Ad esempio, se devi estrarre informazioni su un mutuatario da un documento di Closing Disclosure, puoi utilizzare un’attività Fast Learning, pensata per i documenti semi‑strutturati, per estrarre l’intero testo della cella di tabella di interesse e poi usare un’attività per documenti non strutturati (in questo caso Named Entities, NER, e Address Parsing) per estrarre il nome del mutuatario e una parte del suo indirizzo a partire dalla cella target. Fast Learning con NER e Address Parsing

Passaggi per creare una Document skill

  1. Apri Advanced Designer. Crea una nuova skill facendo clic su Create Document Skill nella pagina iniziale.
  2. Usa la scheda Documenti che si aprirà per caricare i documenti che verranno utilizzati per configurare la skill.
  3. Dopo aver caricato le immagini, vai alla scheda Fields e definisci la struttura dei field per la skill creando e configurando i field che verranno estratti con la skill. Etichetta i documenti nella sezione Reference.
  4. Vai alla scheda Activities, crea un’attività Fast Learning e specifica i field che verranno estratti da questa attività.
  5. Apri l’Activity Editor, configura e addestra l’attività Fast Learning.
  6. Torna alla scheda Activities, crea un’attività Named Entities (NER) e specifica un field di origine, nonché i field che verranno utilizzati per archiviare le entità denominate estratte. Mappa le entità denominate sui field selezionati.
  7. Se hai un field che contiene un indirizzo e vuoi suddividere l’indirizzo in componenti, crea un’attività Address Parsing e specifica un field di origine, nonché i field che verranno utilizzati per archiviare i componenti dell’indirizzo estratti. Mappa i componenti dell’indirizzo sui field selezionati.
  8. Metti alla prova la skill facendo clic su Test Skill Using Selected Documents e analizza i risultati ottenuti.
  9. Quando i risultati dei test sono sufficientemente buoni, pubblica la skill.

Estrazione di dati da documenti non strutturati con tabelle, titoli, intestazioni e piè di pagina

Supponiamo che tu debba estrarre dati da documenti non strutturati (ad es. contratti) che contengono tabelle, titoli, intestazioni o piè di pagina. Documento misto di esempio In questo caso, configura un’attività Segmentation per individuare paragrafi continui di testo e un’attività Extraction Rules per riconoscere elementi semi‑strutturati. Una volta individuato il frammento di documento necessario, utilizza le attività appropriate per estrarre i field da tali frammenti.

Passaggi per creare una Document Skill

  1. Apri Advanced Designer. Crea una nuova skill facendo clic su Create Document Skill nella pagina iniziale.
  2. Usa la scheda Documenti che si aprirà per caricare i documenti che saranno utilizzati per configurare la skill.
  3. Dopo aver caricato le immagini, vai alla scheda Fields e definisci la struttura dei field per la skill creando e configurando i field che verranno estratti con la skill. Etichetta i documenti nella sezione Reference.
  4. Vai alla scheda Activities, crea un’attività Segmentation e specifica i field che verranno utilizzati per memorizzare paragrafi di testo semplice.
  5. Apri l’Activity Editor, configura e addestra l’attività Segmentation.
  6. Torna alla scheda Activities, crea un’attività Extraction Rules e specifica i field che verranno utilizzati per memorizzare i dati provenienti da frammenti semi‑strutturati del documento.
  7. Apri l’Activity Editor, configura e testa l’attività Extraction Rules.
  8. Testa la skill facendo clic su Test Skill Using Selected Documents e analizza i risultati ottenuti.
  9. Quando i risultati dei test sono sufficientemente positivi, pubblica la skill.