Vai al contenuto principale
L’attività di segmentazione è progettata per suddividere il testo nei documenti non strutturati in paragrafi. Questo consente al programma di restringere le aree di ricerca per i field che devono essere estratti da altre attività. L’attività può anche essere utilizzata per estrarre interi paragrafi in field di testo (ad esempio, se si desidera estrarre clausole e condizioni legali da un contratto).
Sample Paragraph

Casi d’uso

Aggiungi questa attività al tuo flusso di elaborazione dei documenti nei seguenti casi:
  • Quando sai che le entità denominate che vuoi estrarre dai documenti si trovano sempre nello stesso paragrafo. Ad esempio, se sai che i nomi delle organizzazioni e gli indirizzi da estrarre si trovano nel primo paragrafo di ogni contratto, puoi estrarre il primo paragrafo utilizzando un’attività di Segmentation, quindi estrarre da quel paragrafo i nomi delle aziende e gli indirizzi utilizzando un’attività Named Entities (NER). Questo approccio è più affidabile rispetto all’estrazione di entità denominate dall’intero documento, poiché puoi controllare l’area specifica da cui vengono estratte.
  • Quando un paragrafo deve essere estratto nella sua interezza perché tutto il suo contenuto è rilevante, ad esempio un paragrafo che contiene i termini di pagamento di un contratto.

Come funziona

Le attività di Segmentation vengono addestrate utilizzando l’etichettatura di riferimento, quindi è essenziale etichettare correttamente il maggior numero possibile di documenti. Se il set di training contiene un numero sufficiente di documenti, l’attività viene addestrata tramite cross‑validation. Il set di documenti viene suddiviso in più sottoinsiemi e l’attività viene addestrata più volte. Ogni volta un sottoinsieme viene escluso dal training e utilizzato per i test interni, il che consente di convalidare i risultati dell’addestramento. Questa tecnica migliora la precisione dell’estrazione e consente anche di rilevare errori di etichettatura e suggerire correzioni. Il numero consigliato di documenti di esempio è il seguente:
  • Per documenti ad alta variabilità, sono necessari almeno 100 documenti di esempio.
  • Per documenti a bassa variabilità, sono necessari almeno 20 documenti di esempio.
Per ulteriori informazioni, vedere Impostazione di un’attività di Segmentation.