Pular para o conteúdo principal
Configure as propriedades do elemento Character String para procurar sequências de caracteres em uma única linha usando conjuntos de caracteres ou expressões regulares. O elemento Character String tem as seguintes propriedades na seção What to search for:

Método

Método especifica o método de pesquisa para o texto. Estão disponíveis os 2 métodos a seguir:

Conjuntos de caracteres

Conjuntos de caracteres descrevem o texto usando conjuntos de caracteres definidos, que são coleções de caracteres permitidos na sequência que está sendo pesquisada. Esse método é usado quando o formato da sequência de caracteres não pode ser descrito com uma expressão regular ou quando a qualidade da imagem não é alta o suficiente, resultando em erros de reconhecimento. Vários conjuntos de caracteres podem ser especificados para um elemento Character String; no entanto, esses conjuntos não podem conter caracteres em comum entre si ao mesmo tempo. Se o formato do texto não for conhecido, não se especificam conjuntos de caracteres permitidos e todos os caracteres possíveis são considerados durante a pesquisa. Para definir conjuntos de caracteres, selecione Characters no campo Method e navegue até o campo Characters. Na caixa de diálogo que será aberta, você poderá criar novos conjuntos de caracteres, além de editar e excluir os existentes.

Definindo um conjunto de caracteres

  1. Selecione o padrão de codificação de caracteres apropriado nas listas suspensas nos campos Code Page ou Unicode Subrange.
  2. Selecione os caracteres desejados na tabela abaixo.
  3. Os caracteres selecionados serão exibidos no campo Selected characters. Você também pode definir um conjunto de caracteres usando o teclado.
  4. No campo Portion in text, %, especifique a proporção de caracteres (de 0 a 100) presentes no texto a ser pesquisado.
CharacterSet

Expressão regular

Expressão regular descreve o texto a ser pesquisado usando uma expressão regular. Expressões regulares descrevem a estrutura de uma palavra ou de qualquer outro valor inserido por meio de uma linguagem específica. Uma expressão regular determina as possíveis combinações de caracteres e seu posicionamento relativo, descrevendo assim a estrutura do texto pesquisado. A pesquisa por expressão regular é precisa — ou seja, a hipótese formulada deve corresponder exatamente à expressão regular. Geralmente, esse método de pesquisa é usado quando as imagens dos documentos são de alta qualidade e não apresentam erros de reconhecimento. Para descrever o texto a ser pesquisado usando uma expressão regular, selecione Expressão regular no campo Method e vá para o campo abaixo. No editor que será aberto, informe sua expressão regular.

Alfabeto de expressões regulares

Nome na listaSímbolo no campoExemplo
Qualquer caractere*“k”*“t” – permite ‘kit’, ‘kat’ etc.
LetraCC”at” – permite cat, bat, Rat, mat etc.
Letra maiúsculaAA”at” – permite Cat, Bat, Rat, Mat etc.
Letra minúsculaaa”at” – permite cat, bat, rat, mat etc.
Letra ou dígitoXX – permite qualquer letra ou dígito único.
DígitoNN”th” permite 5th, 4th, 6th etc.
String"""cat”
Ou”dr”(“i""u”)“nk” – permite “drink” ou “drunk”.
Caractere do conjunto[][hm]“at” – permite ‘hat’ ou ‘mat’.
Caractere fora do conjunto[^][^b]“at” – permite ‘cat’, ‘mat’, ‘rat’, mas não permite bat.
Qualquer número de repetições (aplica-se à expressão ou subexpressão à esquerda){-}[AB74]{-} – permite qualquer combinação de A, B, 7, 4 de qualquer comprimento.
Número de repetições igual a n{n}N{2}"th" permite 25th, 84th, 11th etc.
De n a m repetições{n-m}N{1-3}"th" permite 5th, 84th, 111th etc.
De 0 a n repetições{-n}N{-2}"th" permite th, 84th, 4th etc.
n ou mais repetições{n-}N{2-}"th" permite 25th, 834th, 311th, 34576th etc.
Subexpressão()

Exemplos de expressões regulares

  1. Código postal: [0-9]{6} Exemplo de valor: “142172”
  2. CEP (USA): [0-9]{5}("-"[0-9]{4}){-1} Valores de exemplo: “55416”, “33701-4313”
  3. Renda: N{4-8}[,]N{2} Valores de exemplo: “15000,00”, “4499,00”
  4. Mês no formato numérico: ((|"0")[1-9])|("10")|("11")|("12") Valores de exemplo: “4”, “05”, “12”
  5. Fração: ("-"|)([0-9]{1-})(|(("."| ",")([0-9]{1-}))) Valores de exemplo: “1234,567”, “0.99”, “100,0”, “-345.6788903”
  6. E-mail: [A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-3}"@"[A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-4}"."([A-Za-z]{2-4}|"asia"|"museum"|"travel"|"example"|"localhost") Valores de exemplo: [email protected], [email protected], [email protected]

Expressões regulares estendidas

As expressões regulares estendidas são expressões regulares com funcionalidade adicional, delimitadas por um colchete de abertura seguido de um caractere de porcentagem e um caractere de porcentagem seguido de um colchete de fechamento ([% and %]). As expressões regulares estendidas têm os seguintes recursos adicionais:
  1. Um ou mais caracteres dentro dos colchetes são complementados com erros de OCR comuns. Por exemplo, [%S%] pode permitir S, $ e 5.
  2. Palavras especiais dentro de [%...%] para conjuntos de caracteres comuns e erros de OCR: a. LETTERS — Letras latinas maiúsculas e caracteres comumente reconhecidos como letras latinas maiúsculas; b. DIGITS — Dígitos e caracteres comumente reconhecidos como dígitos; c. LETTERSANDDIGITS — Letras latinas maiúsculas, dígitos e caracteres comumente reconhecidos como letras latinas maiúsculas e dígitos.
Por exemplo, [%DIGITS%]{9} especifica nove dígitos consecutivos ou erros de OCR comuns para dígitos, por exemplo, “OI234Sb7B9”.

Propriedades adicionais

  • Erros permitidos especifica a porcentagem máxima de erros de reconhecimento permitida. Em outras palavras, indica a porcentagem máxima permitida de caracteres totais que podem estar fora do conjunto de caracteres definido. A hipótese para um objeto só pode ser formulada se a porcentagem de erro de reconhecimento para ele não for superior ao valor especificado.
  • Contagem de palavras especifica os números mínimo e máximo de palavras no texto pesquisado.
  • Contagem de caracteres especifica os números mínimo e máximo de caracteres no texto pesquisado.
  • Pesquisar partes de palavras especifica se fragmentos de palavras são permitidos nas hipóteses. Desative esta opção se for necessário excluir hipóteses com fragmentos de palavras e pesquisar apenas palavras completas.

Propriedades avançadas

  • Permitir hipóteses aninhadas permite usar caracteres na área de pesquisa para gerar todas as hipóteses possíveis — incluindo hipóteses que se cruzam e aninhadas.
  • Comprimento máx. do espaço permite especificar o comprimento máximo do espaço dentro do objeto detectado.
  • Orientação do texto permite especificar a orientação do texto que você está procurando. Por padrão, a atividade procura apenas texto na horizontal e não formulará hipótese para texto girado. Se você precisar encontrar texto girado de uma forma específica e ignorar o texto escrito em qualquer outra direção, selecione apenas a opção No sentido horário ou No sentido anti-horário. Para encontrar texto independentemente da orientação, ative todas as opções disponíveis.
  • Detectar palavras por especifica como as linhas devem ser divididas em palavras: automaticamente (Pré-reconhecimento) ou dividindo uma linha em palavras (Espaço entre palavras) sempre que o espaço entre caracteres adjacentes for maior ou igual ao valor informado em Mín. espaço entre palavras.
No modo avançado, as propriedades Contagem de palavras e Contagem de caracteres não são definidas por um valor numérico, mas por um intervalo fuzzy; para mais detalhes, consulte Intervalo fuzzy e Editor de intervalo fuzzy. Para exibir as propriedades avançadas, clique no ícone do modo avançado no painel Propriedades.