Vai al contenuto principale
Un Elemento di ricerca è la descrizione di uno o più oggetti dell’immagine del documento che consente di impostare condizioni di ricerca per un oggetto in un’area specifica. Un elemento contiene informazioni sul tipo di oggetto immagine cercato, sulle proprietà dell’oggetto e sulla sua area di ricerca. I risultati della ricerca ottenuti in base alle proprietà dell’elemento vengono utilizzati dall’attività per creare regioni per gli oggetti rilevati nell’immagine, ovvero aree composte da uno o più rettangoli che racchiudono l’oggetto rilevato. La posizione dei field e degli altri elementi viene quindi determinata rispetto alla posizione degli elementi rilevati. Per creare un elemento, fai clic su Crea elemento e seleziona il tipo di elemento appropriato nell’elenco che verrà visualizzato. Una volta creato un elemento, è necessario configurarne le proprietà nel riquadro Proprietà (vedi Proprietà dell’elemento per ulteriori informazioni). Le proprietà specificate possono anche essere visualizzate e modificate in formato codice (vedi Linguaggio FlexiLayout per ulteriori informazioni). Gli elementi possono essere spostati nell’albero in base alla struttura del documento. Nota che la posizione degli elementi nell’albero determina il loro ordine di ricerca. La ricerca degli elementi viene eseguita in ordine decrescente. Quando crei un elemento di ricerca, scegli il tipo in base all’oggetto che devi trovare. Di seguito trovi brevi descrizioni dei tipi di elementi di ricerca disponibili nell’attività Regole di estrazione. Dopo aver creato l’elemento di ricerca, configura le sue proprietà descritte qui.

Testo statico

Questo elemento descrive del testo predefinito. La maggior parte delle immagini di documenti contiene solitamente testo statico. Può trattarsi del nome del documento (ad esempio, “Invoice”) oppure di etichette aggiuntive per i campi dati (ad es. “Date”, “to:”, “from:”). Tale testo viene riconosciuto come oggetto Recognized Words durante la prerecognizione e di solito funge da ancoraggio per individuare i valori dei field corrispondenti (per esempio, la data è tipicamente riportata accanto all’etichetta “Date”). Questo testo può consistere in una parola o in una frase. Le frasi si differenziano dalle parole perché contengono almeno uno spazio. Una frase può anche essere su più righe. Durante la ricerca di questo elemento, si prendono in considerazione gli oggetti Recognized Words e Recognized Lines rilevati durante la prerecognizione dell’immagine e situati nell’area di ricerca dell’elemento.

Stringa di caratteri

Questo elemento descrive una sequenza di caratteri su una singola riga (da sinistra a destra). Le sequenze di caratteri sono composte da oggetti di testo riconosciuti (Parole riconosciute), ad esempio da parole intere o da più frammenti di oggetti di testo. Questo elemento è progettato per cercare testo non predefinito. Vengono considerati gli oggetti Parole riconosciute rilevati durante la prericonoscimento dell’immagine e situati all’interno dell’area di ricerca dell’elemento. Di solito, l’attività cerca sequenze di caratteri in aree attorno al testo statico già rilevato. Ad esempio, quando si cerca un numero di fattura, è necessario individuare prima il testo statico “Invoice No.”, dopodiché l’attività cerca una sequenza di caratteri alla destra del testo statico sulla stessa riga (in questo caso solo numeri).
Nota: L’attività non cerca elementi Stringa di caratteri in arabo ed ebraico a causa della limitazione della direzione da sinistra a destra.

Paragrafo

Questo elemento descrive un paragrafo di testo. Una ricerca che utilizza questo elemento considera tutti gli oggetti di testo che intersecano l’area di ricerca. Questo elemento è concepito per individuare paragrafi di testo non predefiniti. Gli oggetti Recognized Words e Recognized Lines rilevati durante la pre-riconoscimento e presenti nell’area di ricerca dell’elemento vengono presi in considerazione.

Valore chiave

Questo è un elemento di gruppo progettato per cercare field che hanno un’etichetta. Per creare questo elemento, è necessario specificare le proprietà dell’etichetta, il field di ricerca principale e lo spazio tra i due. È anche possibile specificare un tipo e le relative proprietà per l’elemento primario. Il testo statico e lo spazio bianco fungono da metodi di ricerca secondari per il field primario. Durante la ricerca del testo statico, vengono considerati gli oggetti Recognized Words e Recognized Lines rilevati durante la pre-rilevazione dell’immagine e situati all’interno del field di ricerca dell’elemento. Una volta rilevato l’elemento di testo statico, l’attività cerca il field corrispondente che contiene il valore dell’elemento.

Data

Questo elemento descrive la data. Le date possono essere scritte in formati diversi: i valori di giorno e anno sono sempre numerici, mentre il mese talvolta può essere scritto in lettere. Il formato della data è definito dall’utente.

Importo di denaro

Questo elemento descrive valori numerici che sono interi oppure con due cifre decimali. Per impostazione predefinita, è consentito un simbolo segnaposto per la parte decimale. Ad esempio, 12. verrà riconosciuto come 12,00. La parte intera può essere suddivisa in gruppi utilizzando delimitatori (gli spazi e i seguenti simboli sono consentiti come delimitatori per impostazione predefinita: . , ’). Il numero cercato può avere un prefisso e un suffisso, ad esempio un elemento di testo che precede o segue il valore numerico. Il prefisso deve trovarsi sulla stessa riga del valore numerico. Questo formato è solitamente utilizzato per gli importi monetari, con il nome della valuta che funge da prefisso.

Telefono

Questo elemento descrive un numero di telefono, solitamente accompagnato da una parola chiave (ad es. “Tel.”, “Tel. casa”, ecc.) e da un prefisso città/regione separato dal resto del numero tra parentesi. Il numero di telefono e la relativa parola chiave devono trovarsi sulla stessa riga.

Regione

Questo elemento rappresenta una regione in un’immagine di documento senza alcuna specifica sul contenuto. L’elemento Regione può essere composto da più regioni non contigue. Questo elemento viene utilizzato nell’attività per delimitare aree a prescindere dagli oggetti che contengono. Va utilizzato quando lo stesso field viene rilevato usando elementi diversi su documenti differenti, ad esempio Date e Character String, per cercare una data presente sia in formati standard sia non standard. In questo caso, Date e Character String sono elementi secondari, mentre Regione viene utilizzato per registrare i risultati dell’estrazione.

Separatore

Questo elemento descrive un separatore verticale o orizzontale ed è pensato per la ricerca di separatori. Vengono considerati gli oggetti separatore rilevati durante la prericonoscimento dell’immagine e situati interamente all’interno dell’area di ricerca dell’elemento. Tali oggetti possono trovarsi completamente all’interno dell’area di ricerca oppure semplicemente intersecarla.

White Gap

Questo elemento descrive un’area rettangolare dell’immagine che quasi mai contiene altri oggetti. Può essere usato come elemento secondario per la ricerca di altri elementi. Ad esempio, se nei documenti in elaborazione è sempre presente uno spazio bianco tra l’indirizzo e l’intestazione, è possibile usare un elemento White Gap per cercare l’elemento che contiene l’indirizzo.

Codice a barre

Questo elemento descrive i codici a barre. È progettato per rilevare i tipi di codice a barre supportati da Advanced Designer. Vengono presi in considerazione i codici a barre rilevati durante la prericonoscimento dell’immagine e situati all’interno dell’area di ricerca dell’elemento.

Raccolta di oggetti

Questo elemento descrive una raccolta di oggetti di vari tipi, tutti conformi alle condizioni di ricerca. L’elemento Raccolta di oggetti è solitamente usato per cercare oggetti che non possono essere rilevati con nessun altro tipo di elemento. Ad esempio, può essere usato per trovare segni di punteggiatura isolati che non fanno parte di alcuna riga di testo o di altri oggetti di testo, nonché testo che non è stato riconosciuto a causa della presenza di numerosi oggetti non correlati. Questo elemento può anche essere usato per trovare oggetti non testuali, come immagini e marcature.

Gruppo

Si tratta di una raccolta di altri elementi (detti sottoelementi). I sottoelementi possono essere sia semplici sia di tipo gruppo. Sconsigliamo di creare elementi gruppo che non contengano sottoelementi. Gli elementi gruppo possono essere utilizzati per:
  • Raggruppare elementi. Questo facilita il debug di parti indipendenti dell’attività Regole di Estrazione. Ad esempio, l’attività può contenere 100 elementi suddivisi in 3 parti: intestazione, corpo, piè di pagina. Ciascuno di questi 3 elementi gruppo contiene altri elementi gruppo progettati per cercare piccoli frammenti della parte logica dell’attività. Oltre a ridurre al minimo il numero di possibilità che l’attività deve considerare, una struttura di questo tipo garantisce che il debug e la modifica siano più semplici in futuro, poiché l’attività è suddivisa in parti indipendenti.
  • Garantire una gerarchia logica degli elementi nell’albero, rendendo più semplice la navigazione nell’attività.
  • Ridurre il numero di ipotesi sugli elementi, accelerando la ricerca dell’ipotesi risultante per l’attività nel suo complesso. Raggruppare elementi consente di considerare quel gruppo come un’entità unica con una propria ipotesi, rendendo possibile misurare la qualità del gruppo nel suo complesso.
  • Un elemento composto consente di specificare restrizioni dell’area di ricerca condivise da tutti i sottoelementi. L’area di ricerca per un sottoelemento specifico di un elemento gruppo verrà calcolata come intersezione tra l’area di ricerca del sottoelemento e quella dell’elemento gruppo.
Gli elementi (sia gruppo sia semplici) possono essere obbligatori, facoltativi o vietati. Se un elemento composto facoltativo contiene un sottoelemento obbligatorio, la mancata corrispondenza del sottoelemento comporterà la formulazione dell’ipotesi nulla per l’elemento gruppo. Ciò non interromperà il processo di corrispondenza dell’attività Regole di Estrazione.

Gruppo ripetuto

Questo elemento è concepito per individuare gruppi di elementi ripetitivi (con un numero di istanze sconosciuto). Un esempio comune è una tabella di dati. Un elemento ripetuto differisce da un normale elemento composto per i suoi parametri di ripetizione. Questo gruppo può comparire più volte su una singola Pagina così come in tutto il documento. Poiché questo gruppo si ripete all’interno di un documento, l’elemento consente di descrivere tutte le sue istanze (inclusi i relativi parametri di ripetizione) come un unico elemento. Di conseguenza, l’uso di Gruppo ripetuto consente di descrivere la struttura del documento in modo molto più rapido. Questo elemento può essere utilizzato per:
  • Cercare tabelle.
  • Cercare un’intestazione su ogni Pagina di un documento multipagina.
  • Cercare un numero sconosciuto di voci di dati ripetute.

Input Field

Questo elemento è progettato per rilevare una regione di Field estratta da un’altra attività. Questo elemento può essere utilizzato per trovare altri elementi. Ad esempio, se una Skill contiene un Field che rimane sempre sull’immagine dopo l’addestramento, può essere utilizzato come Field di ancoraggio quando si cercano elementi utilizzando un’attività di Extraction Rules. Per farlo, crea un elemento Input Field e seleziona il Field appropriato nella struttura della Skill. Questo creerà un elemento Region che contiene il codice che collega l’elemento e il Field selezionato nella scheda Search Conditions.

Deep Learning

Questo elemento consente di accedere a un valore individuato da un’attività di Deep Learning che invia il proprio output all’attività Extraction Rules all’interno di un contenitore Hypothesis Filtering. Questo elemento è disponibile solo all’interno di un contenitore Hypothesis Filtering. Puoi controllare l’output di un’attività di Deep Learning specificando delle condizioni per questo elemento di ricerca. Ad esempio, se l’attività di Deep Learning è configurata per trovare un valore ripetuto, puoi impostare la posizione preferita dell’istanza da estrarre.