Pular para o conteúdo principal
Concluímos a configuração da atividade “Sick Note DE” e estamos prontos para criar o segundo conjunto de Regras de Extração para a outra classe de atestados médicos. A estrutura dos atestados médicos holandeses e belgas é bem diferente da dos documentos alemães. Há muitas variantes dentro da classe, portanto, desta vez não podemos usar a atividade Fast Learning para extrair campos. Esses documentos trazem algumas informações adicionais que não estão presentes nos atestados médicos alemães, então também adicionaremos alguns novos campos ao configurar a atividade. Começaremos extraindo os dados disponíveis em todos os documentos e, em seguida, adicionaremos alguns novos campos ao formulário de dados. Você pode alternar para outra atividade sem fechar o Activity Editor. Clique no nome da atividade atual ao lado do nome da skill e selecione “Sick Note BE-NL” na lista suspensa. Selecione o primeiro documento do conjunto.

Extraindo a data de emissão

As datas nesses documentos podem ser facilmente extraídas usando o elemento Date, portanto, desta vez usaremos o elemento de pesquisa criado automaticamente para esse campo.
  1. Abra a caixa de diálogo Manage Fields na guia Fields e selecione um campo “Date” para ser usado nesta atividade. Clique em Save.
  2. Vá para a guia Search Elements. Você verá um elemento de pesquisa do tipo Date criado para o campo “Date”. Ele é mapeado para o campo automaticamente.
  3. Crie um elemento de pesquisa Group chamado “IssueDateGroup”. Torne o elemento opcional.
  4. Adicione um elemento Static Text chamado “kwDate” para encontrar o rótulo que nos ajudará a localizar a data propriamente dita.
  5. Esta classe de documento contém documentos em holandês ou francês, portanto há várias opções para o texto do rótulo. Você pode inserir cada opção em uma nova linha na caixa de diálogo Text to find. Insira o texto “Date” na primeira linha e “Datum” na segunda.
  6. Desative a opção Search for parts of words.
  7. Arraste e solte o elemento de pesquisa “Date” no grupo e posicione-o abaixo do elemento “kwDate”.
  8. Especifique a área de pesquisa para o elemento “Date”.
    a. Exclua a relação Nearest to que foi adicionada automaticamente quando o elemento foi criado. b. Selecione o elemento “kwDate” como o mais próximo do elemento que estamos procurando.
    c. A data pode estar localizada à direita da palavra-chave ou abaixo dela. Especifique a área de pesquisa abaixo do elemento “kwDate”.
    d. A área de pesquisa também deve incluir a linha em que a palavra-chave está localizada. Clique no ícone de limite inferior à direita do nome do elemento e selecione Top Boundary of Region. As linhas podem ser irregulares, então defina o valor Below como -10 para estender a área de pesquisa um pouco acima da linha.
  9. Clique em Match para verificar se a data foi localizada corretamente.
É assim que deve ser a estrutura do elemento de pesquisa: AD_Tutorial_BE_IssueDate_Structure

Extraindo as datas de afastamento

Vamos extrair essas datas usando elementos Key value. O elemento Key value permite pesquisar tanto um rótulo de texto estático quanto o valor. No entanto, ele não permite muita variação na localização e nas propriedades do valor. Nestes documentos, as datas de afastamento são formatadas de modo que cada componente da data fique em uma célula separada de uma tabela. As células da tabela podem estar localizadas em posições não padronizadas em cada documento, mas a posição relativa das células é sempre a mesma. Não podemos contar com limites muito nítidos nas células da tabela, mas ainda assim usaremos o elemento Table Cell porque ele admite bordas imprecisas e será conveniente caso decidamos treinar a atividade com mais documentos. Portanto, usaremos o elemento Group para organizar a hierarquia dos elementos de pesquisa.
Você pode usar o elemento Table Cell não apenas para campos localizados dentro das tabelas do documento. Ele também pode ser útil se você precisar extrair dados de um formulário em que o conteúdo esteja localizado em caixas semelhantes ou em estruturas do tipo tabela. Se essas caixas tiverem linhas divisórias nítidas, o elemento Table Cell será muito eficaz.
  1. Abra a caixa de diálogo Manage Fields e adicione os seguintes campos à atividade atual:
    • Start Date
    • End Date
    Clique em Save.
  2. Vá para a guia Search Elements e crie o elemento Group para a extração da data de início. Defina os seguintes parâmetros para os elementos incluídos no grupo:
ParameterValue
Group search element:
NameStartDateGroup
Static Text search element:
NamekwStartDate
Text to findVanaf / From, A partir du, Van
Search for parts of wordsDisabled
Table Cell search elements:
NameStartDateDay
Search patternNumber
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaBelow the “kwStartDate” element, nearest to “kwStartDate”
Table Cell search element:
NameStartDateMonth
Search patternNumber
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaBelow the “kwStartDate” element, right of “StartDateDay”, nearest to “StartDateDay”
Table Cell search element:
NameStartDateYear
Search patternNumber
Character count{2, 2, 4, 4}
Search for parts of wordsDisabled
Search areaBelow the “kwStartDate” element, right of “StartDateMonth”, nearest to “StartDateMonth”
O elemento Table Cell retorna o texto da célula como está. Neste caso, o padrão de pesquisa contém um Number que reconhece apenas os dígitos, portanto o texto retornado pelo elemento será um número.
  1. Crie uma cópia do elemento “StartDateGroup” e renomeie-o para “EndDateGroup”.
  2. Renomeie os subelementos do grupo: “kwStartDate” para “kwEndDate”, “StartDateDay” para “EndDateDay”, “StartDateMonth” para “EndDateMonth”, “StartDateYear” para “EndDateYear”.
  3. Altere o texto a ser encontrado do elemento “kwEndDate” para “Tot en met / Till and incl., Jusqu’ au, Tot en met”.
  4. Especifique a área de pesquisa para o elemento “EndDateDay”. Ele deve estar localizado abaixo do elemento “kwEndDate” e ser o mais próximo dele. Exclua as outras relações.
  5. Abra a caixa de diálogo Manage Fields e adicione um Data Composition Field chamado “Start Date Composed”. Mapeie os seguintes elementos para os campos:
    • “StartDateDay” para Day
    • “StartDateMonth” para Month
    • “StartDateYear” para Year
    Clique em Save.
  6. Crie um Data Composition Field chamado “End Date Composed”. Mapeie os seguintes elementos para os campos:
    • “EndDateDay” para Day
    • “EndDateMonth” para Month
    • “EndDateYear” para Year
    Clique em Save.
  7. Mapeie os campos de composição de dados “Start Date Composed” e “End Date Composed” para os campos “Start Date” e “End Date”.
É assim que deve ser a estrutura do elemento de pesquisa: AD_Tutorial_BE_Dates_Structure

Extraindo o tipo de atestado médico

Vamos extrair o tipo de atestado médico usando uma marca de seleção exatamente da mesma forma que fizemos para os documentos alemães.
  1. Abra a caixa de diálogo Manage Fields na guia Fields e habilite o grupo de marcas de seleção “Type of Sick Note”. Habilite as marcas de seleção “Primary” e “Secondary” no grupo para serem usadas na atividade atual. Clique em Save.
  2. Construa uma estrutura semelhante à que foi criada para os documentos alemães, mas tenha em mente que, em documentos holandeses e belgas, o rótulo (o texto próximo à marca de seleção) vem primeiro. A ordem dos elementos filhos para esses grupos é importante. a. Crie um elemento Group chamado “TypeOfSickNoteGroup”. b. Crie uma cópia desse grupo e renomeie-a para “PrimaryGroup”. Coloque-a dentro de “TypeOfSickNoteGroup”. c. Adicione um elemento Static Text chamado “kwCheckmark” ao grupo “PrimaryGroup”. d. Defina o texto a ser encontrado como “eerste / Primary, première, primair”.
Nestes documentos, o texto próximo à marca de seleção fica à esquerda da marca de seleção, portanto definimos a área de pesquisa à esquerda dela, não à direita.
Configure o restante dos elementos de acordo com a tabela abaixo:
ParameterValue
Static Text search element:
NameCheckmark
Text to findX
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaRight of “kwCheckmark”, nearest to “kwCheckmark”
Static Text search element:
NameXMark
Text to findX
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaBelow the “kwCheckmark” top boundary, Below value = -15, Left of “kwCheckmark”, Above the “kwCheckmark” bottom boundary, Above value = -15, Nearest to “kwCheckmark”
Under what conditionsDo not find element if “Checkmark” is found
Region search element:
NameCheckmarkRegion
Search Conditions section of the Code Editorif Checkmark.IsFound then RSA: Checkmark.Rect; else if XMark.IsFound then RSA: XMark.Rect; else DontFind;
e. Crie uma cópia de “PrimaryGroup” e renomeie-a para “SecondaryGroup”. Altere o texto a ser encontrado do elemento “kwCheckmark” para “prolongation”, “verlenging”. f. Os atestados médicos alemães eram divididos em dois tipos. Diferentemente deles, os atestados médicos holandeses e belgas são divididos em três tipos (‘relapse’ é um tipo adicional). Portanto, crie outra cópia do grupo “PrimaryGroup” e renomeie-a para “RelapseGroup”. g. Altere o texto a ser encontrado do elemento “kwCheckmark” para “Herval” e habilite a opção Match case para excluir palavras que ocorram no meio de uma frase. É assim que deve ser a estrutura do elemento de pesquisa: AD_Tutorial_BE_TypeOfSickNote_Structure
  1. Abra a janela Manage Fields e adicione uma marca de seleção “Relapse” ao grupo de marcas de seleção “Type of Sick Note”. Habilite todas as marcas de seleção do grupo para serem usadas na atividade atual e clique em Save.
  2. Mapeie as marcas de seleção para os elementos Region correspondentes e exclua os elementos que foram criados automaticamente ao habilitar os campos.

Testando a atividade

Configuramos todos os elementos de pesquisa e campos necessários. Selecione todos os documentos, clique em Match e vá para a guia Fields para revisar as regiões de campo nas imagens do documento. Lembre-se de que uma região só será atribuída a um campo se pertencer à hipótese do melhor caminho. Quando estiver satisfeito com os resultados, clique no ícone de copiar acima da imagem do documento para copiar a rotulagem prevista para a rotulagem de referência.