Vai al contenuto principale
Configura le proprietà dell’elemento Character String per cercare sequenze di caratteri su una singola riga utilizzando insiemi di caratteri o espressioni regolari. L’elemento Character String dispone delle seguenti proprietà nella sezione What to search for:

Metodo

Method specifica il metodo di ricerca del testo. Sono disponibili i seguenti due metodi:

Caratteri

Caratteri descrive il testo utilizzando insiemi di caratteri specificati, ovvero raccolte di caratteri consentiti nella sequenza oggetto della ricerca. Questo metodo si usa quando il formato della sequenza di caratteri non può essere descritto con un’espressione regolare, oppure se la qualità dell’immagine non è sufficientemente alta e provoca errori di riconoscimento. È possibile specificare più insiemi di caratteri per un elemento Character String; tuttavia, tali insiemi non possono avere caratteri in comune. Se il formato del testo non è noto, non si specificano insiemi di caratteri consentiti e, durante la ricerca, vengono considerati tutti i caratteri possibili. Per impostare insiemi di caratteri, selezionare Caratteri nel campo Method e passare al campo Characters. Nella finestra di dialogo che si aprirà sarà possibile creare nuovi insiemi di caratteri, nonché modificarli o eliminarli.

Impostazione di un set di caratteri

  1. Selezionare lo standard di codifica dei caratteri appropriato dagli elenchi a discesa nel field Code Page o nel field Unicode Subrange.
  2. Selezionare i caratteri appropriati nella tabella sottostante.
  3. I caratteri selezionati verranno visualizzati nel field Selected characters. È inoltre possibile specificare un set di caratteri tramite tastiera.
  4. Nel field Portion in text, %, specificare la percentuale di caratteri (da 0 a 100) presenti nel testo da cercare.
CharacterSet

Espressione regolare

Espressione regolare descrive il testo da cercare tramite un’espressione regolare. Le espressioni regolari definiscono la struttura di una parola o di qualsiasi altro valore immesso utilizzando un linguaggio specifico. Un’espressione regolare determina le possibili combinazioni di caratteri e il loro posizionamento reciproco, descrivendo così la struttura del testo da cercare. Una ricerca con espressione regolare è precisa, cioè l’ipotesi formulata deve corrispondere esattamente all’espressione regolare. Di norma, questo metodo di ricerca si utilizza quando le immagini del documento sono di alta qualità e prive di errori di riconoscimento. Per descrivere il testo da cercare utilizzando un’espressione regolare, selezionare Espressione regolare nel field Method e andare al field sottostante. Nell’editor che si aprirà, specificare la propria espressione regolare.

Alfabeto delle espressioni regolari

Nome nell’elencoSimbolo nel fieldEsempio
Qualsiasi carattere*“k”*“t” – consente ‘kit’, ‘kat’, ecc.
LetteraCC”at” – consente cat, bat, Rat, mat, ecc.
Lettera maiuscolaAA”at” – consente Cat, Bat, Rat, Mat, ecc.
Lettera minuscolaaa”at” – consente car, bat, rat, mat, ecc.
Lettera o cifraXX – consente qualsiasi singola lettera o cifra.
CifraNN”th” – consente 5th, 4th, 6th, ecc.
String"""cat”
Oppure”dr”(“i""u”)“nk” – consente “drink” o “drunk”.
Carattere dall’insieme[][hm]“at” – consente ‘hat’ o ‘mat’.
Carattere non dall’insieme[^][^b]“at” – consente ‘cat’, ‘mat’, ‘rat’, ma non consente bat.
Numero qualsiasi di ripetizioni (si applica all’espressione o sottoespressione a sinistra){-}[AB74]{-} – consente qualsiasi combinazione di A, B, 7, 4 di qualsiasi lunghezza.
Numero di ripetizioni uguale a n{n}N{2}"th" – consente 25th, 84th, 11th, ecc.
Da n a m ripetizioni{n-m}N{1-3}"th" – consente 5th, 84th, 111th, ecc.
Da 0 a n ripetizioni{-n}N{-2}"th" – consente th, 84th, 4th, ecc.
n o più ripetizioni{n-}N{2-}"th" – consente 25th, 834th, 311th, 34576th, ecc.
Sottoespressione()

Esempi di espressioni regolari

  1. Codice postale: [0-9]{6} Esempio di valore: “142172”
  2. CAP (USA): [0-9]{5}("-"[0-9]{4}){-1} Valori di esempio: “55416”, “33701-4313”
  3. Reddito: N{4-8}[,]N{2} Valori di esempio: “15000,00”, “4499,00”
  4. Mese in formato numerico: ((|"0")[1-9])|("10")|("11")|("12") Valori di esempio: “4”, “05”, “12”
  5. Frazione: ("-"|)([0-9]{1-})(|(("."| ",")([0-9]{1-}))) Valori di esempio: “1234,567”, “0.99”, “100,0”, “-345.6788903”
  6. E-mail: [A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-3}"@"[A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-4}"."([A-Za-z]{2-4}|"asia"|"museum"|"travel"|"example"|"localhost") Valori di esempio: “[email protected]”, “[email protected]”, “[email protected]

Espressioni regolari estese

Le espressioni regolari estese sono espressioni regolari con funzionalità aggiuntive racchiuse tra una parentesi di apertura seguita da un carattere percentuale e un carattere percentuale seguito da una parentesi di chiusura ([% and %]). Le espressioni regolari estese presentano le seguenti funzionalità aggiuntive:
  1. Uno o più caratteri all’interno delle parentesi vengono integrati con errori OCR comuni. Ad esempio, [%S%] può consentire S, $ e 5.
  2. Parole speciali all’interno di [%...%] per insiemi di caratteri comuni ed errori OCR: a. LETTERS - lettere latine maiuscole e caratteri comunemente riconosciuti come lettere latine maiuscole; b. DIGITS - cifre e caratteri comunemente riconosciuti come cifre; c. LETTERSANDDIGITS - lettere latine maiuscole, cifre e caratteri comunemente riconosciuti come lettere latine maiuscole e cifre.
Ad esempio, [%DIGITS%]{9} specifica nove cifre consecutive o errori OCR comuni per le cifre, ad es. “OI234Sb7B9”.

Proprietà aggiuntive

  • Errori consentiti specifica la percentuale massima di errore di riconoscimento consentita. In altre parole, indica la percentuale massima consentita di caratteri complessivi che possono essere esterni al set di caratteri definito. L’ipotesi per un oggetto può essere formulata solo se la sua percentuale di errore di riconoscimento non supera il valore specificato.
  • Conteggio parole specifica il numero minimo e massimo di parole nel testo oggetto di ricerca.
  • Conteggio caratteri specifica il numero minimo e massimo di caratteri nel testo oggetto di ricerca.
  • Ricerca di parti di parole specifica se sono consentiti frammenti di parole nelle ipotesi. Disabilitare questa opzione se è necessario escludere le ipotesi con frammenti di parole e cercare solo parole intere.

Proprietà avanzate

  • Consenti ipotesi annidate consente di usare i caratteri nell’area di ricerca per generare tutte le possibili ipotesi, incluse quelle intersecanti e annidate.
  • Lunghezza max. spazi consente di specificare la lunghezza massima dello spazio all’interno dell’oggetto rilevato.
  • Orientamento del testo consente di specificare l’orientamento del testo da cercare. Per impostazione predefinita, l’attività cerca solo testo orientato orizzontalmente e non formulerà ipotesi per testo ruotato. Se devi trovare testo ruotato in un modo specifico e ignorare il testo scritto in qualsiasi altra direzione, seleziona solo l’opzione In senso orario o In senso antiorario. Per trovare il testo indipendentemente dal suo orientamento, abilita tutte le opzioni disponibili.
  • Rileva parole per specifica come suddividere le righe in parole: automaticamente (Pre-Recognition) oppure dividendo una riga in parole (Spazio interparola) ogni volta che lo spazio tra caratteri adiacenti è maggiore o uguale al valore inserito in Spazio min. interparola.
In modalità avanzata le proprietà Conteggio parole e Conteggio caratteri non sono impostate con un valore numerico, ma con un intervallo fuzzy; per i dettagli, vedi Intervallo fuzzy e Editor intervallo fuzzy. Per visualizzare le proprietà avanzate, fai clic sull’icona della modalità avanzata nel riquadro Properties.