Pular para o conteúdo principal
Um Elemento de Pesquisa é a descrição de um ou vários objetos de imagem do documento, que permite definir condições de busca para um objeto em uma área específica. Um elemento contém informações sobre o tipo de objeto de imagem a ser buscado, as propriedades do objeto e sua área de busca. Os resultados de busca obtidos a partir das propriedades do elemento são usados pela atividade para formar regiões para os objetos detectados na imagem — uma área composta por um ou vários retângulos que englobam o objeto detectado. A localização de campos e de outros elementos é então determinada em relação à localização dos elementos detectados. Para criar um elemento, clique em Create Element e selecione o tipo apropriado na lista exibida. Depois de criar um elemento, configure suas propriedades no painel Properties (consulte Propriedades do Elemento para mais informações). As propriedades definidas também podem ser visualizadas e editadas em formato de código (consulte Linguagem FlexiLayout para mais informações). Os elementos podem ser movidos na árvore conforme a estrutura do documento. Observe que a posição dos elementos na árvore determina sua ordem de busca. A busca de elementos é realizada em ordem decrescente. Ao criar um elemento de pesquisa, escolha o tipo conforme o objeto que você precisa encontrar. A seguir, você encontrará breves descrições dos tipos de elementos de pesquisa disponíveis na atividade Extraction Rules. Depois de criar o elemento de pesquisa, configure suas propriedades, descritas aqui.

Texto estático

Este elemento descreve texto predefinido. A maioria das imagens de documentos geralmente contém algum texto estático. Isso pode ser o nome do documento (por exemplo, “Invoice”) ou rótulos adicionais para campos de dados (por exemplo, “Date”, “to:”, “from:”). Esse texto é reconhecido como um objeto Recognized Words durante a pré-reconhecimento e geralmente serve como âncora para detectar valores dos campos correspondentes (por exemplo, a data geralmente é escrita ao lado do rótulo “Date”). Esse texto pode consistir em uma palavra ou uma frase. Frases diferem de palavras por conterem pelo menos um espaço. Uma frase também pode ser escrita em várias linhas. Ao pesquisar este elemento, são considerados os objetos Recognized Words e Recognized Lines detectados durante a pré-reconhecimento da imagem e localizados na área de pesquisa do elemento.

Cadeia de caracteres

Este elemento descreve uma sequência de caracteres em uma única linha (da esquerda para a direita). As sequências de caracteres são formadas a partir de objetos de texto reconhecido (Recognized Words), por exemplo, de palavras inteiras ou de vários fragmentos desses objetos. Assim, o elemento é destinado à busca de texto que não é predefinido. São considerados os objetos Recognized Words detectados durante a pré-reconhecimento da imagem e localizados dentro da área de pesquisa do elemento. Normalmente, a atividade busca sequências de caracteres em áreas ao redor de texto estático que já foi detectado. Por exemplo, ao procurar um número da fatura, primeiro é necessário encontrar o texto estático “Invoice No.”, após o que a atividade procura uma sequência de caracteres à direita do texto estático na mesma linha (apenas números, nesse caso).
Observação: A atividade não busca elementos de Cadeia de caracteres em árabe e hebraico devido à sua orientação da esquerda para a direita.

Parágrafo

Este elemento descreve um parágrafo de texto. Uma pesquisa usando este elemento considera todos os objetos de texto que intersectam a área de pesquisa. Este elemento foi projetado para procurar parágrafos de texto que não são predefinidos. Os objetos Recognized Words e Recognized Lines detectados durante a pré-reconhecimento e localizados na área de pesquisa do elemento são considerados.

Valor-chave

Este é um elemento de grupo projetado para buscar campos que tenham um rótulo. Para criar esse elemento, é necessário especificar as propriedades do rótulo, o campo principal de busca e o espaço entre eles. Você também pode especificar um tipo e propriedades apropriadas para o elemento primário. O texto estático e o espaço em branco atuam como meios de busca secundários para o campo primário. Ao buscar pelo texto estático, são considerados os objetos Recognized Words e Recognized Lines detectados durante a pré-reconhecimento da imagem e localizados dentro da área de busca do elemento. Depois que o elemento de texto estático é detectado, a atividade pesquisa o campo correspondente que contém o valor do elemento.

Data

Este elemento descreve a data. As datas podem ser escritas em diferentes formatos, com os valores de dia e ano sempre em números, enquanto o mês pode, às vezes, ser escrito por extenso. O formato da data é definido pelo usuário.

Montante de Dinheiro

Este elemento descreve valores numéricos que são inteiros ou têm duas casas decimais. Por padrão, é permitido um símbolo curinga para a parte decimal. Por exemplo, 12. será reconhecido como 12,00. A parte inteira pode ser dividida em grupos usando delimitadores (espaços e os seguintes símbolos são permitidos como delimitadores por padrão: . , ’). O número pesquisado pode ter um prefixo e um sufixo, por exemplo, um elemento de texto que vem antes ou depois do valor numérico. O prefixo deve estar na mesma linha que o valor numérico. Esse formato é geralmente usado para montantes de dinheiro, com o nome da moeda atuando como prefixo.

Telefone

Este elemento descreve um número de telefone, que geralmente vem acompanhado de uma palavra-chave (por exemplo, “Tel.”, “Tel. residencial” etc.) e de um código de cidade/região separado do restante do número por parênteses. O número de telefone e a palavra-chave correspondente devem estar na mesma linha.

Região

Este elemento representa uma região em uma imagem de documento, sem qualquer especificação sobre seu conteúdo. O elemento Região pode consistir em várias áreas desconectadas. Ele é usado na atividade para demarcar regiões independentemente dos objetos que elas contêm. Deve ser usado quando o mesmo campo é detectado por elementos diferentes em documentos distintos; por exemplo, Date e Character String para procurar uma data especificada em formatos padrão e não padrão. Nesse caso, Date e Character String são elementos secundários, enquanto Region é usado para registrar os resultados da extração.

Separador

Este elemento descreve um separador vertical ou horizontal. Ele é projetado para a busca de separadores. São considerados os objetos de separador detectados durante a pré-reconhecimento da imagem e localizados inteiramente na área de busca do elemento. Esses objetos podem estar totalmente dentro da área de busca ou apenas cruzá-la.

Espaço em Branco

Este elemento descreve uma área retangular na imagem que quase nunca contém outros objetos. Pode ser usado como elemento auxiliar em buscas de outros elementos. Por exemplo, se houver sempre um espaço em branco entre o endereço e o cabeçalho do documento nos documentos em processamento, um elemento Espaço em Branco pode ser usado para localizar o elemento que contém o endereço.

Código de barras

Este elemento descreve códigos de barras. Ele foi projetado para detectar os tipos de códigos de barras compatíveis com o Advanced Designer. São considerados os objetos de código de barras detectados durante o pré-reconhecimento da imagem e localizados dentro da área de busca do elemento.

Coleção de Objetos

Este elemento descreve uma coleção de objetos de vários tipos, todos os quais atendem às condições de pesquisa. O elemento Coleção de Objetos geralmente é usado para localizar objetos que não podem ser detectados por qualquer outro tipo de elemento. Por exemplo, ele pode ser usado para encontrar sinais de pontuação isolados que não fazem parte de nenhuma linha de texto ou de outros objetos de texto, bem como trechos de texto que não puderam ser reconhecidos devido à presença de muitos objetos não relacionados. Este elemento também pode ser usado para encontrar objetos não textuais, como imagens e marcações.

Grupo

Esta é uma coleção de vários outros elementos (chamados subelementos). Os subelementos podem ser simples ou de grupo. Não recomendamos usar elementos de grupo que não contenham subelementos. Os elementos de grupo podem ser usados para o seguinte:
  • Agrupar elementos. Isso facilita a depuração de partes independentes da sua atividade de Regras de Extração. Por exemplo, sua atividade pode conter 100 elementos divididos em 3 partes: cabeçalho, corpo, rodapé. Cada um desses 3 elementos de grupo contém outros elementos de grupo projetados para buscar pequenos fragmentos da parte lógica da sua atividade. Além de minimizar o número de possibilidades que precisam ser consideradas pela atividade, usar essa estrutura garante que a depuração e a edição sejam mais fáceis no futuro, já que tudo fica dividido em partes independentes.
  • Garantir uma hierarquia lógica dos elementos na árvore, o que facilita a navegação na atividade.
  • Reduzir o número possível de hipóteses de elementos, acelerando a busca pela hipótese resultante para a atividade como um todo. Agrupar elementos permite que esse conjunto seja considerado uma única entidade, com sua própria hipótese, o que possibilita ter uma medida de qualidade para o grupo como um todo.
  • Um elemento composto permite especificar restrições de área de pesquisa compartilhadas por todos os subelementos. A área de pesquisa de um subelemento específico de um elemento de grupo será calculada como a interseção das áreas de pesquisa do subelemento e do elemento de grupo.
Elementos (tanto de grupo quanto simples) podem ser obrigatórios, opcionais ou proibidos. Se um elemento composto opcional contiver um subelemento obrigatório, não conseguir corresponder esse subelemento resultará na formulação da hipótese nula para o elemento de grupo. Isso não interromperá a correspondência da atividade de Regras de Extração.

Grupo repetido

Este elemento foi projetado para localizar grupos de elementos que se repetem (com número de instâncias desconhecido). Um exemplo comum é uma tabela de dados. Um elemento repetido difere de um elemento composto comum em seus parâmetros de repetição. Esse grupo pode aparecer várias vezes em uma única página, bem como ao longo de todo o documento. Como o grupo se repete dentro de um documento, o elemento permite descrever todas as suas instâncias (incluindo os parâmetros de repetição) como um único elemento. Assim, usar Grupo repetido permite descrever a estrutura do documento com muito mais rapidez. Este elemento pode ser usado para:
  • Localizar tabelas.
  • Localizar um cabeçalho em cada página de um documento com várias páginas.
  • Localizar um número desconhecido de entradas de dados repetidas.

Campo de Entrada

Este elemento foi projetado para detectar uma região de campo extraída por outra atividade. Ele pode ser usado para localizar outros elementos. Por exemplo, se uma skill contiver um campo que sempre permanece na imagem após o treinamento, ele pode ser usado como campo âncora ao pesquisar elementos usando uma atividade Extraction Rules. Para isso, crie um elemento Campo de Entrada e selecione o campo apropriado na estrutura da skill. Isso criará um elemento Região que contém código que vincula o elemento ao campo selecionado na guia Search Conditions.

Deep Learning

Este elemento oferece acesso a um valor encontrado por uma atividade de Deep Learning que encaminha sua saída para a atividade Extraction Rules dentro de um contêiner Hypothesis Filtering. Este elemento está disponível somente dentro de um contêiner Hypothesis Filtering. Você pode controlar a saída de uma atividade de Deep Learning especificando condições para este elemento de pesquisa. Por exemplo, se a atividade de Deep Learning estiver configurada para localizar um valor repetido, você pode definir a posição preferencial da instância que precisa extrair.