Vai al contenuto principale
L’attività di segmentazione è progettata per suddividere il testo dei documenti non strutturati in paragrafi. Questo consente al programma di restringere le aree di ricerca per i field che devono essere estratti da altre attività. L’attività può anche essere utilizzata per estrarre interi paragrafi in field di testo (ad esempio, se si desidera estrarre clausole e condizioni legali da un contratto).
Paragrafo di esempio

Casi d’uso

Aggiungi questa attività al tuo flusso di elaborazione dei documenti nei seguenti casi:
  • Quando sai che le entità denominate che vuoi estrarre dai documenti si trovano sempre nello stesso paragrafo. Ad esempio, se sai che i nomi delle organizzazioni e gli indirizzi da estrarre si trovano nel primo paragrafo di ogni contratto, puoi estrarre il primo paragrafo utilizzando un’attività di Segmentation, quindi estrarre da quel paragrafo i nomi delle aziende e gli indirizzi utilizzando un’attività Named Entities (NER). Questo approccio è più affidabile rispetto all’estrazione di entità denominate dall’intero documento, poiché puoi controllare l’area specifica da cui vengono estratte.
  • Quando un paragrafo deve essere estratto nella sua interezza perché tutto il suo contenuto è rilevante, ad esempio un paragrafo che contiene i termini di pagamento di un contratto.

Come funziona

Le attività di segmentazione vengono addestrate utilizzando un’etichettatura di riferimento, quindi è essenziale etichettare correttamente il maggior numero possibile di documenti. Se il set di training contiene un numero sufficiente di documenti, l’attività viene addestrata tramite cross-validation. Il set di documenti viene suddiviso in più sottoinsiemi e l’attività viene addestrata più volte. Ogni volta un sottoinsieme viene escluso dall’addestramento e utilizzato per test interni, il che consente di convalidare i risultati dell’addestramento. Questa tecnica migliora l’accuratezza dell’estrazione, oltre a rilevare errori nell’etichettatura e suggerire correzioni. Il numero consigliato di documenti di esempio è il seguente:
  • Per documenti ad alta variabilità, sono necessari almeno 100 documenti di esempio.
  • Per documenti a bassa variabilità, sono necessari almeno 20 documenti di esempio.
Per ulteriori informazioni, vedere Configurazione di un’attività di segmentazione.