Vai al contenuto principale
Le Document skill vengono utilizzate per estrarre i valori dei field da diversi tipi di documenti: documenti strutturati (ad esempio moduli fiscali o moduli di richiesta), documenti semi‑strutturati (ad esempio fatture, bolle d’ordine o lettere di vettura aerea) e documenti non strutturati (ad esempio contratti, contratti di locazione o messaggi email). Le Document skill possono essere create sia in ABBYY Vantage sia in Advanced Designer. Quest’ultimo è lo strumento consigliato se devi creare Document skill complesse per documenti non standard con layout e strutture di field variabili. Advanced Designer consente inoltre di combinare diverse tecnologie nelle tue Document skill, aggiungere funzionalità NLP per l’elaborazione di documenti non strutturati o imporre condizioni per l’elaborazione di diversi tipi di documenti (consulta Use cases per una panoramica degli scenari tipici).

Varianti di tipo di documento

I documenti dello stesso tipo hanno quasi sempre insiemi identici di field, Regole di validazione e struttura. Le varianti di un singolo tipo di documento possono differire leggermente, a seconda, per esempio, dell’Anno in cui il documento è stato emesso. I documenti dello stesso tipo possono essere elaborati da una singola Document skill addestrata su diverse varianti di questo tipo di documento. Vantage e Advanced Designer possono gestire qualsiasi numero di varianti all’interno di un tipo di documento:
  • Per centinaia di varianti, le skill addestrate con l’Online Learning in Vantage saranno in grado di estrarre i dati quasi senza errori.
  • Per migliaia di varianti, le skill addestrate con l’attività Deep Learning saranno in grado di estrarre i dati con un’accuratezza di circa l’80%-90%, a seconda della complessità dei tipi di documento.
  • Per le varianti più importanti di un tipo di documento, le skill addestrate con le attività Fast Learning e/o Extraction Rules garantiranno un’estrazione accurata dei dati da documenti complessi.
  • Per i documenti strutturati, che presentano sempre lo stesso tipo di informazioni nelle stesse posizioni esatte, consigliamo di utilizzare fino a 10 varianti. Se un modulo fisso ha molte varianti, consigliamo di trattarle tutte come tipi di documento diversi. Per ulteriori informazioni, vedere Elaborazione di documenti strutturati.

Addestramento e test di una Document skill

Per ottenere i migliori risultati di estrazione, consigliamo di addestrare e testare una Document skill utilizzando tre diversi set di documenti:
  • Set di addestramento
  • Set di test
  • Set cieco (un set di test aggiuntivo che contiene documenti di esempio non inclusi in nessuno dei due set sopra)

Requisiti del set di training

Per un set di training, utilizza un set di documenti rappresentativo che contenga almeno 2-3 documenti di esempio per ogni variante. Se le varianti sono molte e il set non include almeno un documento di esempio per ciascuna, valuta l’utilizzo dell’attività Deep Learning. Questa attività riconosce i pattern delle immagini, la struttura dei documenti, i contenuti dei field e le etichette circostanti e può elaborare varianti che non sono state utilizzate nel training. Il numero di documenti di esempio per le attività dipende dalle tecnologie utilizzate nel tuo Document skill:
  • Deep Learning activity for semi-structured documents:
    • Per documenti ad alta variabilità, sono necessari almeno 200-300 documenti di esempio (2-3 documenti di esempio per variante). In generale, consigliamo di avere circa 1.000 documenti nel set.
    • Per documenti a bassa variabilità, in genere sono sufficienti 100 documenti di esempio.
  • Segmentation activity:
    • Per documenti ad alta variabilità, consigliamo di avere almeno 100 documenti di esempio.
    • Per documenti a bassa variabilità, consigliamo di averne almeno 20.
  • Deep Learning for NLP activity:
    • Per documenti ad alta variabilità, consigliamo di avere almeno 300 documenti di esempio (2-3 esempi per variante).
    • Per documenti a bassa variabilità, consigliamo di averne almeno 50.
Nota: Anche se non disponi del numero consigliato di documenti di esempio, avere un documento di esempio per variante è meglio di niente.

Requisiti del set di test

Per un set di test, la distribuzione dei documenti di esempio deve rispecchiare quella del flusso reale di documenti in produzione. Questo garantirà la validità della stima dell’accuratezza. Ad esempio, se le fatture di un determinato Fornitore rappresentano il 30% del flusso di documenti in produzione, circa il 30% dei documenti di esempio nel set di test dovrebbe provenire da quel Fornitore. Puoi anche ottenere il rapporto richiesto testando la tua Skill su campioni casuali di documenti dal flusso di produzione.

Requisiti per il blind set

Per un blind set, assicurati di utilizzare documenti che non siano già stati usati per l’addestramento o il test della tua skill. I risultati di estrazione ottenuti su un blind set ti aiuteranno a valutare la qualità della tua skill.
Nota: Assicurati di utilizzare documenti diversi per l’addestramento e il test della tua skill.

Configurazione di una Document skill

Dopo aver creato una Document skill nella pagina iniziale, segui questi passaggi per configurare la tua skill:
  1. Fai clic sul pulsante Impostazioni accanto al nome della skill per visualizzare e modificare le relative impostazioni.
  2. Nella scheda Documenti, carica alcuni documenti.
  3. Nella scheda Fields, etichetta i field da cui verranno estratti i valori, specificandone le posizioni.
  4. Nella scheda Activities, configura il flusso di elaborazione del documento.
  5. Nella scheda Results, testa la tua skill per verificarne le prestazioni sui documenti di esempio.
  6. Nella scheda Publish, pubblica la tua skill.
Dopo aver configurato e pubblicato la tua Document skill, sarà disponibile nello Skill Catalog di ABBYY Vantage. Nello Skill Catalog puoi visualizzare e gestire le tue skill, incluse le skill integrate, le skill di sola lettura e le skill derivate.