Vai al contenuto principale
L’attività Regole di Estrazione consente di definire regole per rilevare i field nei documenti semi‑strutturati e verificarne il funzionamento su documenti reali. Si utilizza in genere quando la posizione di un field può variare da un documento all’altro, rendendo più complessa l’estrazione dei dati, e quando è possibile fornire informazioni aggiuntive per individuare tali field: ad esempio, la posizione dei field rispetto ad altri oggetti nel documento o espressioni regolari che specificano le condizioni di ricerca per un oggetto. Ad esempio, puoi specificare che il field Numero della fattura può trovarsi a destra dell’immagine oppure direttamente sotto le parole “Order number”, “Order #”, o altre parole chiave simili. Si consiglia inoltre di aggiungere un’attività Fast Learning al flusso di elaborazione, abilitando l’Online Learning per raccogliere documenti in fase di esecuzione, che ricostruirà automaticamente la skill in un secondo momento tramite machine learning.

Casi d’uso

Aggiungi l’attività Extraction Rules al tuo flusso di elaborazione dei documenti nei seguenti casi:
  • Quando il tuo set di documenti non è sufficientemente omogeneo per utilizzare un’attività Fast Learning per estrarre dati, non hai abbastanza documenti per addestrare un’attività Deep Learning e i documenti hanno una struttura nota che puoi formalizzare.
  • Quando desideri un controllo più approfondito sull’IA, analizzando i risultati di previsione delle attività Deep Learning e Fast Learning prima di trasferire quei valori nei field del documento. Ad esempio, se prevedi di estrarre un numero vicino a una parola chiave, puoi filtrare le ipotesi che non sembrano essere un numero e quelle che non si trovano vicino alla parola chiave. In generale, se è richiesto il post-processing con regole, ciò di solito indica che il set di training per le attività Deep Learning e Fast Learning dovrebbe essere ampliato, perché le tecnologie di machine learning possono “intuire” e apprendere il tipo di dato di un field, la posizione tipica e il contesto circostante.
  • Quando disponi di un file FlexiLayout da ABBYY FlexiLayout Studio che desideri riutilizzare. Per ulteriori informazioni, vedi Importing FlexiLayouts from ABBYY FlexiLayout Studio.
  • Quando i tuoi documenti contengono strutture complesse (ad es. tabelle annidate, cioè strutture ripetute all’interno di altre tabelle) che non possono essere estratte da altre attività pensate per documenti semi‑strutturati.

Come funziona

Un’attività di Regole di estrazione è una descrizione formalizzata di un insieme di documenti che consente agli operatori di acquisizione dati di utilizzare regole personalizzate per individuare i field nei documenti ed estrarre informazioni da tali field. In altre parole, un’attività di Regole di estrazione consente di specificare algoritmi di ricerca dei field per le immagini dei documenti. È possibile specificare la posizione dei field in relazione ad altri oggetti oppure utilizzare coordinate assolute per definirne la posizione. Vari oggetti nell’immagine del documento vengono rilevati tramite elementi di ricerca. Per ogni oggetto che deve essere rilevato nell’immagine, è necessario creare un elemento corrispondente che descriva completamente il tipo di oggetto richiesto (ad esempio testo, immagine, barcode), le sue caratteristiche e l’area di ricerca presunta per l’oggetto. Gli elementi compongono un albero di Elementi di ricerca, ossia una struttura logicamente connessa (di qualsiasi livello di annidamento) in cui gli elementi vengono cercati gli uni in relazione agli altri. L’ordine degli elementi nell’albero corrisponde direttamente all’ordine in cui l’attività li cerca; cioè, quando confronta una descrizione con l’immagine, l’attività cercherà gli elementi in ordine decrescente. Il raggruppamento degli elementi aiuta a ottimizzare la ricerca e consente la creazione di sotto-gerarchie indipendenti. Per estrarre dati in un field, è necessario associare il field a un elemento di ricerca. Se l’elemento viene trovato nell’immagine, la sua regione diventa la regione del field associato. Per ulteriori informazioni, vedere Configurare un’attività di Regole di estrazione.

Combinare più attività di Extraction Rules

È possibile creare un elemento del workflow che contenga più attività di Extraction Rules. L’attività da applicare al documento viene selezionata in base al valore di un determinato field. Questo field può contenere risultati di classificazione o altri dati che aiutano a distinguere tra le varianti del documento. I valori specificati fungono da condizioni per scegliere l’attività corrispondente. Per ulteriori informazioni, vedere Più set di Extraction Rules all’interno di un’unica attività.