Pular para o conteúdo principal
Para dividir um fluxo de páginas de arquivos que contêm vários documentos em documentos separados, prontos para processamento posterior, crie uma Skill de Document Splitter.

Separating Documents of the Same Type

Suponha que você tenha um arquivo que contenha vários documentos do mesmo tipo (por exemplo, uma coleção de faturas de um Fornecedor referentes a um determinado período). Cada fatura terá seu próprio número e pode ter números de Página impressos. Esses e outros dados podem ser usados para separar os documentos entre si. Você pode usar uma atividade de Regras de Extração para configurar a extração de números de fatura e números de Página. Você também pode usar uma atividade de Classificação se a primeira Página de um documento for significativamente diferente das outras Páginas. Em seguida, você pode usar a atividade Splitter Script para analisar os valores extraídos e determinar se a Página atual é a primeira Página de um novo documento.

Separando documentos e removendo anexos

Suponha que os documentos a serem processados sejam acompanhados por documentos explicativos que devem ser armazenados, mas dos quais não se deve extrair dados. Nesse caso, você pode usar a atividade Classify para classificar as páginas em documentos do tipo necessário e seus anexos. Você também pode usar a atividade Extraction Rules para verificar se há algum dado relevante em uma página. Uma página sem dados relevantes provavelmente é uma página de anexo. Em seguida, você pode usar a atividade Splitter Script para anexar as páginas de anexo a cada documento ou colocá-las em documentos separados.

Separando documentos e determinando seu tipo

Suponha que você tenha um arquivo que contenha vários documentos de tipos diferentes (por exemplo, uma solicitação de empréstimo acompanhada de documentos de identidade, comprovantes de renda, extratos bancários, contas de serviços públicos e outros documentos). Nesse caso, você pode usar a atividade Classify para classificar cada Página e a atividade Extraction Rules para extrair os dados necessários para determinar se a Página atual é a primeira Página de um novo documento. Em seguida, você pode usar a atividade Splitter Script para configurar regras para separar documentos e determinar seu tipo.

Reordenando páginas e removendo páginas em branco

Suponha que você precise reordenar páginas ou remover páginas em branco ou com conteúdo irrelevante resultantes de uma digitalização desorganizada. Em geral, a reordenação só é possível se as páginas contiverem algum dado que indique a ordem correta (números de página, por exemplo). Nesse caso, você pode criar um campo para extrair os números de página. Você também pode criar um campo para procurar qualquer texto em uma página e, assim, descartar páginas em branco como lixo. Usando a atividade Splitter Script, você pode reordenar as páginas de acordo com seus números e criar um documento separado que contenha todas as páginas em branco ou com conteúdo irrelevante. Document Splitter Workflow

Etapas para criar uma Skill de divisão de documentos

  1. Abra o ABBYY Vantage Advanced Designer e crie uma nova Skill de divisão de documentos clicando em Create Splitter Skill na página inicial.
  2. Na guia Documents, faça upload de seus arquivos. Cada conjunto de documentos deve conter arquivos de uma única transação de negócios. O conjunto de arquivos de origem será convertido em páginas separadas. Observe que todas as atividades, exceto a atividade Splitter Script, processarão cada Página separadamente.
  3. Configure o fluxo de processamento do documento para extrair dados que ajudem a determinar o tipo de documento de cada Página na transação e a identificar onde um documento termina e outro começa. a. Configure uma atividade Classify para classificar Páginas se o fluxo de Páginas de origem contiver vários tipos de documentos ou se a primeira Página de cada documento diferir significativamente das demais. b. Se necessário, rotule campos ou adicione outras atividades para extrair dados que possam ser usados para separar documentos do mesmo tipo ou determinar a classe de um documento.
  4. Configure a atividade Splitter Script adicionando tipos de documento no painel Splitter Script Properties e configurando o script que converterá o fluxo de Páginas em um conjunto de documentos. O script tem acesso a todas as Páginas de uma transação e pode analisar dados de outras atividades para determinar quais Páginas são as primeiras Páginas de novos documentos.
  5. Teste sua skill clicando em Test Skill Using Selected Documents e analise os resultados obtidos.
  6. Quando estiver satisfeito com os resultados, publique sua skill.