Pular para o conteúdo principal
Concluímos a configuração da atividade “Sick Note DE” e estamos prontos para criar o segundo conjunto de Regras de Extração para a outra classe de atestados médicos. A estrutura dos atestados médicos holandeses e belgas é bem diferente da dos documentos alemães. Há muitas variantes dentro da classe, portanto, desta vez não podemos usar a atividade Fast Learning para extrair campos. Esses documentos trazem algumas informações adicionais que não estão presentes nos atestados médicos alemães, então também adicionaremos alguns novos campos ao configurar a atividade. Começaremos extraindo os dados disponíveis em todos os documentos e, em seguida, adicionaremos alguns novos campos ao formulário de dados. Você pode alternar para outra atividade sem fechar o Activity Editor. Clique no nome da atividade atual ao lado do nome da skill e selecione “Sick Note BE-NL” na lista suspensa. Selecione o primeiro documento do conjunto.

Extraindo a data de emissão

As datas nesses documentos podem ser facilmente extraídas usando o elemento Date, portanto, desta vez usaremos o elemento de pesquisa criado automaticamente para este campo.
  1. Abra a caixa de diálogo Manage Fields na guia Fields e selecione um campo “Date” para usar nesta atividade. Clique em Save.
  2. Vá para a guia Search Elements. Você verá um elemento de pesquisa do tipo Date criado para o campo “Date”. Ele é mapeado para o campo automaticamente.
  3. Crie um elemento de pesquisa Group chamado “IssueDateGroup”. Torne o elemento opcional.
  4. Adicione um elemento Static Text chamado “kwDate” para encontrar o rótulo que nos ajudará a localizar a data propriamente dita.
  5. Esta classe de documento contém documentos em holandês ou francês, portanto, há várias opções para o texto do rótulo. Você pode inserir cada opção em uma nova linha na caixa de diálogo Text to find. Insira o texto “Date” na primeira linha e “Datum” na segunda.
  6. Desative a opção Search for parts of words.
  7. Arraste e solte o elemento de pesquisa “Date” no grupo e posicione-o abaixo do elemento “kwDate”.
  8. Especifique a área de pesquisa para o elemento “Date”. a. Exclua a relação Nearest to que foi adicionada automaticamente quando o elemento foi criado. b. Selecione o elemento “kwDate” como o mais próximo do elemento que estamos procurando. c. A data pode estar à direita da palavra-chave ou abaixo dela. Especifique a área de pesquisa abaixo do elemento “kwDate”. d. A área de pesquisa também deve incluir a linha em que a palavra‑chave está localizada. Clique no ícone de limite inferior à direita do nome do elemento e selecione Top Boundary of Region. As linhas podem ser irregulares, então defina o valor Below como -10 para estender a área de pesquisa um pouco acima da linha.
  9. Clique em Match para verificar se a data foi localizada corretamente.
É assim que a estrutura do elemento de pesquisa deve ficar: AD_Tutorial_BE_IssueDate_Structure

Extraindo as datas de afastamento

Vamos extrair essas datas usando elementos de Chave-valor. O elemento Chave-valor permite pesquisar tanto um rótulo de texto estático quanto o valor. No entanto, ele não admite muita variação na localização e nas propriedades do valor. Nestes documentos, as datas de afastamento são formatadas de modo que cada componente da data fique em uma célula separada de uma tabela. As células da tabela podem estar em locais não padronizados em cada documento, mas a posição relativa das células é sempre a mesma. Não podemos contar com limites muito nítidos nas células da tabela, mas ainda assim usaremos o elemento Table Cell porque ele admite bordas imprecisas e será conveniente caso decidamos treinar a atividade com mais documentos. Portanto, usaremos o elemento Group para organizar a hierarquia dos elementos de pesquisa. Observação: Você pode usar o elemento Table Cell não apenas para campos localizados dentro de tabelas no documento. Ele também pode ser útil se você precisar extrair dados de um formulário em que o conteúdo esteja em caixas semelhantes ou estruturas do tipo tabela. Se essas caixas tiverem linhas divisórias nítidas, o elemento Table Cell será muito eficaz.
  1. Abra a caixa de diálogo Manage Fields e adicione os seguintes campos à atividade atual:
    • Start Date
    • End Date
    Clique em Save.
  2. Vá para a guia Search Elements e crie o elemento Group para a extração da data de início. Defina os seguintes parâmetros para os elementos incluídos no grupo:
ParameterValue
Group search element:
NameStartDateGroup
Static Text search element:
NamekwStartDate
Text to findVanaf / From, A partir du, Van
Search for parts of wordsDisabled
Table Cell search elements:
NameStartDateDay
Search patternNumber
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaBelow the “kwStartDate” element, nearest to “kwStartDate”
Table Cell search element:
NameStartDateMonth
Search patternNumber
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaBelow the “kwStartDate” element, right of “StartDateDay”, nearest to “StartDateDay”
Table Cell search element:
NameStartDateYear
Search patternNumber
Character count{2, 2, 4, 4}
Search for parts of wordsDisabled
Search areaBelow the “kwStartDate” element, right of “StartDateMonth”, nearest to “StartDateMonth”
Observação: O elemento Table Cell retorna o texto da célula como está. Neste caso, o padrão de pesquisa contém um Number que reconhece apenas dígitos, portanto o texto retornado pelo elemento será um número.
  1. Crie uma cópia do elemento “StartDateGroup” e renomeie-o para “EndDateGroup”.
  2. Renomeie os subelementos do grupo: “kwStartDate” para “kwEndDate”, “StartDateDay” para “EndDateDay”, “StartDateMonth” para “EndDateMonth”, “StartDateYear” para “EndDateYear”.
  3. Altere o texto a ser encontrado do elemento “kwEndDate” para “Tot en met / Till and incl., Jusqu’ au, Tot en met”.
  4. Especifique a área de pesquisa para o elemento “EndDateDay”. Ele deve estar localizado abaixo do elemento “kwEndDate” e o mais próximo possível dele. Exclua as outras relações.
  5. Abra a caixa de diálogo Manage Fields e adicione um Data Composition Field chamado “Start Date Composed”. Faça o mapeamento dos seguintes elementos para os campos:
    • “StartDateDay” para Day
    • “StartDateMonth” para Month
    • “StartDateYear” para Year
    Clique em Save.
  6. Crie um Data Composition Field chamado “End Date Composed”. Faça o mapeamento dos seguintes elementos para os campos:
    • “EndDateDay” para Day
    • “EndDateMonth” para Month
    • “EndDateYear” para Year
    Clique em Save.
  7. Mapear os campos de composição de dados “Start Date Composed” e “End Date Composed” para os campos “Start Date” e “End Date”.
É assim que deve ficar a estrutura dos elementos de pesquisa: AD_Tutorial_BE_Dates_Structure

Extraindo o tipo de atestado médico

Vamos extrair o tipo de atestado médico usando uma marca de seleção exatamente da mesma forma que fizemos para os documentos em alemão.
  1. Abra a caixa de diálogo Manage Fields na guia Fields e habilite o grupo de marcas de seleção “Type of Sick Note”. Habilite as marcas de seleção “Primary” e “Secondary” no grupo para serem usadas na atividade atual. Clique em Save.
  2. Construa uma estrutura semelhante à criada para os documentos em alemão, mas tenha em mente que, em documentos holandeses e belgas, o rótulo (o texto próximo à marca de seleção) vem primeiro. A ordem dos elementos filhos para esses grupos é importante. a. Crie um elemento Group chamado “TypeOfSickNoteGroup”. b. Crie uma cópia desse grupo e renomeie-a para “PrimaryGroup”. Coloque-o dentro de “TypeOfSickNoteGroup”. c. Adicione um elemento Static Text chamado “kwCheckmark” ao grupo “PrimaryGroup”. d. Defina o texto a ser encontrado como “eerste / Primary, première, primair”.
Observação: Nestes documentos, o texto próximo à marca de seleção fica à esquerda da marca de seleção; portanto, definimos a área de pesquisa à esquerda dela, não à direita. Configure o restante dos elementos de acordo com a tabela abaixo:
ParameterValue
Static Text search element:
NameCheckmark
Text to findX
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaRight of “kwCheckmark”, nearest to “kwCheckmark”
Static Text search element:
NameXMark
Text to findX
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaBelow the “kwCheckmark” top boundary, Below value = -15, Left of “kwCheckmark”, Above the “kwCheckmark” bottom boundary, Above value = -15, Nearest to “kwCheckmark”
Under what conditionsDo not find element if “Checkmark” is found
Region search element:
NameCheckmarkRegion
Search Conditions section of the Code Editorif Checkmark.IsFound then RSA: Checkmark.Rect; else if XMark.IsFound then RSA: XMark.Rect; else DontFind;
e. Crie uma cópia de “PrimaryGroup” e renomeie-a para “SecondaryGroup”. Altere o texto a ser encontrado do elemento “kwCheckmark” para “prolongation”, “verlenging”. f. Os atestados médicos em alemão eram divididos em dois tipos. Diferentemente deles, os atestados médicos holandeses e belgas são divididos em três tipos (“relapse” é um tipo adicional). Portanto, crie outra cópia do grupo “PrimaryGroup” e renomeie-a para “RelapseGroup”. g. Altere o texto a ser encontrado do elemento “kwCheckmark” para “Herval” e habilite a opção Match case para excluir ocorrências no meio de uma frase. É assim que a estrutura do elemento de pesquisa deve ficar: AD_Tutorial_BE_TypeOfSickNote_Structure
  1. Abra a janela Manage Fields e adicione uma marca de seleção “Relapse” ao grupo de marcas de seleção “Type of Sick Note”. Habilite todas as marcas de seleção do grupo para serem usadas na atividade atual e clique em Save.
  2. Mapeie as marcas de seleção aos elementos Region correspondentes e exclua os elementos que foram criados automaticamente ao habilitar os campos.

Testando a atividade

Configuramos todos os elementos de pesquisa e campos necessários. Selecione todos os documentos, clique em Match e vá para a guia Fields para revisar as regiões de campo nas imagens do documento. Lembre-se de que uma região só será atribuída a um campo se pertencer à hipótese do melhor caminho. Quando estiver satisfeito com os resultados, clique no ícone de copiar acima da imagem do documento para copiar a rotulagem prevista para a rotulagem de referência.