Crea una Document skill per estrarre dati da documenti strutturati, semi-strutturati e non strutturati
Per estrarre dati dai documenti, crea una Document skill.Lo scenario e le tecnologie coinvolte (disponibili come attività) dipendono in larga misura dalla struttura dei documenti che intendi elaborare. In generale, i documenti possono essere classificati nelle seguenti tipologie:
I documenti strutturati (noti anche come moduli a formato fisso) contengono sempre le stesse informazioni e presentano lo stesso layout o un numero molto limitato di layout. Esempi di documenti strutturati sono moduli, questionari e sondaggi.
I documenti semi‑strutturati in genere contengono le stesse informazioni, ma la posizione, la dimensione e il numero di field possono variare da un documento all’altro, il che rende più complessa l’estrazione dei dati. Vantage si basa sulle relazioni spaziali e logiche tra determinati elementi e field per individuare ed estrarre i dati richiesti. Esempi di documenti semi‑strutturati includono fatture, ordini di pagamento e polizze di carico.Se il tuo set di documenti è composto da documenti strutturati o semi‑strutturati, consulta gli scenari nelle sezioni Elaborazione di documenti strutturati e Elaborazione di documenti semi‑strutturati.
I documenti non strutturati sono composti da testo libero suddiviso in paragrafi e frasi contenenti dati da estrarre. In alcuni documenti non strutturati, un field può estendersi alla pagina successiva. Esempi di documenti non strutturati sono contratti, email e articoli di ricerca.Se il tuo set di documenti è composto da documenti non strutturati, consulta gli scenari nella sezione Elaborazione di documenti non strutturati.
Se il tuo set di documenti contiene sia documenti semi‑strutturati sia non strutturati, oppure se i tuoi documenti possono includere sia contenuti semi‑strutturati sia non strutturati (ad esempio paragrafi di testo semplice alternati a tabelle), consulta gli scenari nella sezione Elaborazione di set di documenti misti e documenti a struttura mista.