Pular para o conteúdo principal
A atividade Regras de Extração permite definir regras para detectar campos em documentos semiestruturados e verificar como essas regras funcionam em documentos reais. Ela costuma ser aplicada quando a posição de um campo pode variar de documento para documento, dificultando a extração de dados, e quando é possível fornecer informações adicionais para detectar esses campos: por exemplo, a localização dos campos em relação a outros objetos no documento ou expressões regulares que especifiquem as condições de pesquisa para um objeto. Por exemplo, você pode especificar que o campo Número da fatura pode estar localizado à direita da imagem ou diretamente abaixo das palavras “Order number”, “Order #” ou outras palavras‑chave semelhantes. Também recomendamos adicionar uma atividade Fast Learning ao fluxo de processamento, habilitando o Online Learning para coletar documentos em tempo de execução, o que reconstruirá automaticamente o skill posteriormente por meio de aprendizado de máquina.

Casos de uso

Adicione a atividade Extraction Rules ao seu fluxo de processamento de documentos nos seguintes casos:
  • Quando seu conjunto de documentos não é suficientemente padronizado para usar uma atividade Fast Learning para extrair dados, você não tem documentos suficientes para treinar uma atividade Deep Learning e os documentos têm uma estrutura conhecida que pode ser formalizada.
  • Quando você deseja maior controle sobre a IA, analisando os resultados de previsão das atividades Deep Learning e Fast Learning antes de transferir esses valores para campos do documento. Por exemplo, se você espera extrair um número localizado próximo a alguma palavra-chave, pode filtrar hipóteses que não pareçam ser um número e hipóteses que não estejam localizadas perto da palavra-chave. De modo geral, se o pós-processamento com regras for necessário, isso normalmente indica que o conjunto de treinamento para as atividades Deep Learning e Fast Learning deve ser ampliado, pois as tecnologias de machine learning podem “captar” e aprender o tipo de dado de um campo, sua localização típica e o contexto.
  • Quando você tem um arquivo FlexiLayout do ABBYY FlexiLayout Studio que deseja reutilizar. Para mais informações, consulte Importing FlexiLayouts from ABBYY FlexiLayout Studio.
  • Quando seus documentos contêm estruturas complexas (por exemplo, tabelas aninhadas, que são estruturas repetitivas dentro de outras tabelas) que não podem ser extraídas por outras atividades voltadas a documentos semiestruturados.

Como funciona

Uma atividade de Regras de Extração é uma descrição formalizada de um conjunto de documentos que permite que operadores de captura de dados usem regras personalizadas para localizar campos nos documentos e extrair informações desses campos. Em outras palavras, uma atividade de Regras de Extração permite especificar algoritmos de busca de campos para imagens de documentos. Você pode especificar a posição dos campos em relação a outros objetos ou usar coordenadas absolutas para definir sua localização. Vários objetos na imagem do documento são detectados usando elementos de busca. Para cada objeto que precisa ser detectado na imagem, é necessário criar um elemento correspondente que descreva completamente o tipo de objeto requerido (como texto, imagem, código de barras), suas características e a área de busca presumida para o objeto. Os elementos compõem uma árvore de Elementos de Busca, que é uma estrutura logicamente conectada (de qualquer nível de aninhamento) em que os elementos são pesquisados em relação uns aos outros. A ordem dos elementos na árvore corresponde diretamente à ordem em que a atividade os procura; ou seja, ao casar uma descrição com a imagem, a atividade buscará os elementos em ordem decrescente. Agrupar elementos ajuda a otimizar a busca e permite a criação de sub-hierarquias independentes. Para extrair dados para um campo, você deve mapeá-lo a um elemento de busca. Se o elemento for encontrado na imagem, sua região se torna a região do campo mapeado. Para mais informações, consulte Como configurar uma atividade de Regras de Extração.

Combinando várias atividades de Extraction Rules

Você pode criar um item de fluxo de trabalho que contenha várias atividades de Extraction Rules. A atividade a ser aplicada ao documento é selecionada com base no valor de um campo. Esse campo pode conter resultados de classificação ou outros dados que ajudam a distinguir entre variantes do documento. Os valores especificados servem como condições para escolher a atividade correspondente. Para mais informações, consulte Vários conjuntos de Extraction Rules em uma única atividade.