Pular para o conteúdo principal
O elemento Character String tem as seguintes propriedades na seção What to search for:

Método

Método especifica o método de pesquisa para o texto. Estão disponíveis os 2 métodos a seguir:

Conjuntos de caracteres

Conjuntos de caracteres descrevem o texto usando conjuntos de caracteres definidos, que são coleções de caracteres permitidos na sequência que está sendo pesquisada. Esse método é usado quando o formato da sequência de caracteres não pode ser descrito com uma expressão regular ou quando a qualidade da imagem não é alta o suficiente, resultando em erros de reconhecimento. Vários conjuntos de caracteres podem ser especificados para um elemento Character String; no entanto, esses conjuntos não podem conter caracteres em comum entre si ao mesmo tempo. Se o formato do texto não for conhecido, não se especificam conjuntos de caracteres permitidos e todos os caracteres possíveis são considerados durante a pesquisa. Para definir conjuntos de caracteres, selecione Characters no campo Method e navegue até o campo Characters. Na caixa de diálogo que será aberta, você poderá criar novos conjuntos de caracteres, além de editar e excluir os existentes.

Definindo um conjunto de caracteres

  1. Selecione o padrão de codificação de caracteres apropriado nas listas suspensas nos campos Code Page ou Unicode Subrange.
  2. Selecione os caracteres desejados na tabela abaixo.
  3. Os caracteres selecionados serão exibidos no campo Selected characters. Você também pode definir um conjunto de caracteres usando o teclado.
  4. No campo Portion in text, %, especifique a proporção de caracteres (de 0 a 100) presentes no texto a ser pesquisado.
CharacterSet

Expressão regular

Expressão regular descreve o texto a ser pesquisado usando uma expressão regular. Expressões regulares descrevem a estrutura de uma palavra ou de qualquer outro valor inserido por meio de uma linguagem específica. Uma expressão regular determina as possíveis combinações de caracteres e seu posicionamento relativo, descrevendo assim a estrutura do texto pesquisado. A pesquisa por expressão regular é precisa — ou seja, a hipótese formulada deve corresponder exatamente à expressão regular. Geralmente, esse método de pesquisa é usado quando as imagens dos documentos são de alta qualidade e não apresentam erros de reconhecimento. Para descrever o texto a ser pesquisado usando uma expressão regular, selecione Expressão regular no campo Method e vá para o campo abaixo. No editor que será aberto, informe sua expressão regular.

Alfabeto de expressões regulares

Nome na listaSímbolo no campoExemplo
Qualquer caractere*“k”*“t” – permite ‘kit’, ‘kat’, etc.
LetraCC”at” – permite cat, bat, Rat, mat, etc.
Letra maiúsculaAA”at” – permite Cat, Bat, Rat, Mat, etc.
Letra minúsculaaa”at” – permite cat, bat, rat, mat, etc.
Letra ou dígitoXX – permite qualquer letra ou dígito único.
DígitoNN”th” – permite 5th, 4th, 6th, etc.
String"""cat”
Ou”dr”(“i""u”)“nk” – permite “drink” ou “drunk”.
Caractere do conjunto[][hm]“at” – permite ‘hat’ ou ‘mat’.
Caractere fora do conjunto[^][^b]“at” – permite ‘cat’, ‘mat’, ‘rat’, mas não permite ‘bat’.
Qualquer número de repetições (aplica-se à expressão ou subexpressão à esquerda){-}[AB74]{-} – permite qualquer combinação de A, B, 7, 4 de qualquer comprimento.
Número de repetições é n{n}N{2}"th" – permite 25th, 84th, 11th, etc.
De n a m repetições{n-m}N{1-3}"th" – permite 5th, 84th, 111th, etc.
De 0 a n repetições{-n}N{-2}"th" – permite th, 84th, 4th, etc.
n ou mais repetições{n-}N{2-}"th" – permite 25th, 834th, 311th, 34576th, etc.
Subexpressão()

Exemplos de expressões regulares

  1. Código postal: [0-9]{6} Exemplo de valor: “142172”
  2. CEP (USA): [0-9]{5}("-"[0-9]{4}){-1} Exemplos de valores: “55416”, “33701-4313”
  3. Renda: N{4-8}[,]N{2} Exemplos de valores: “15000,00”, “4499,00”
  4. Mês em formato numérico: ((|"0")[1-9])|("10")|("11")|("12") Exemplos de valores: “4”, “05”, “12”
  5. Fração: ("-"|)([0-9]{1-})(|(("."| ",")([0-9]{1-}))) Exemplos de valores: “1234,567”, “0.99”, “100,0”, “-345.6788903”
  6. E-mail: [A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-3}"@"[A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-4}"."([A-Za-z]{2-4}|"asia"|"museum"|"travel"|"example"|"localhost") Exemplos de valores: “support@abbyy.com”, “my-name@company.org.ru”, “info@gallery.museum

Expressões regulares estendidas

As expressões regulares estendidas são expressões regulares com funcionalidade adicional delimitada por um colchete de abertura seguido de um caractere de porcentagem e um caractere de porcentagem seguido de um colchete de fechamento ([% and %]). As expressões regulares estendidas têm os seguintes recursos adicionais:
  1. Um ou mais caracteres dentro dos colchetes são complementados com erros de OCR (Optical Character Recognition) comuns. Por exemplo, [%S%] pode permitir S, $ e 5.
  2. Palavras especiais dentro de [%...%] para conjuntos de caracteres comuns e erros de OCR: a. LETTERS - Letras latinas maiúsculas e caracteres comumente reconhecidos como letras latinas maiúsculas; b. DIGITS - Dígitos e caracteres comumente reconhecidos como dígitos; c. LETTERSANDDIGITS - Letras latinas maiúsculas, dígitos e caracteres comumente reconhecidos como letras latinas maiúsculas e dígitos.
Por exemplo, [%DIGITS%]{9} especifica nove dígitos consecutivos ou erros comuns de OCR em dígitos, por exemplo, “OI234Sb7B9”.

Propriedades adicionais

  • Erros permitidos define a porcentagem máxima de erro de reconhecimento permitida. Em outras palavras, indica a porcentagem máxima do total de caracteres que pode estar fora do conjunto de caracteres definido. Uma hipótese para um objeto só pode ser formulada se a porcentagem de erro de reconhecimento não exceder o valor especificado.
  • Contagem de palavras define o número mínimo e máximo de palavras no texto pesquisado.
  • Contagem de caracteres define o número mínimo e máximo de caracteres no texto pesquisado.
  • Pesquisar por partes de palavras define se fragmentos de palavras são permitidos nas hipóteses. Desative esta opção se você precisar excluir hipóteses com fragmentos de palavras e pesquisar apenas palavras inteiras.

Propriedades avançadas

  • Permitir hipóteses incorporadas permite usar caracteres na área de pesquisa para gerar todas as possíveis hipóteses — incluindo hipóteses sobrepostas e incorporadas.
  • Comprimento máx. do espaço permite especificar o comprimento máximo do espaço dentro do objeto detectado.
  • Orientação do texto permite especificar a orientação do texto que você está procurando. Por padrão, a atividade procura apenas texto orientado horizontalmente e não formulará hipótese para texto rotacionado. Se você precisa encontrar texto rotacionado de uma forma específica e ignorar o texto escrito em qualquer outra direção, selecione apenas a opção Sentido horário ou Sentido anti-horário. Para encontrar texto independentemente da sua orientação, habilite todas as opções disponíveis.
  • Detectar palavras por especifica como as linhas devem ser divididas em palavras: automaticamente (Pré-reconhecimento) ou dividindo uma linha em palavras (Espaço entre palavras) sempre que o espaço entre caracteres adjacentes for maior ou igual ao valor inserido em Mín. espaço entre palavras.
No modo avançado, as propriedades Contagem de palavras e Contagem de caracteres não são definidas por um valor numérico, mas por um intervalo aproximado; para detalhes, consulte Intervalo difuso e Editor de intervalo difuso. Para exibir as propriedades avançadas, clique no ícone do modo avançado no painel Propriedades.