Pular para o conteúdo principal
Você precisa rotular um certo número de documentos para treinar e testar uma Skill. As diretrizes abaixo ajudarão você a rotular seus documentos corretamente.
Dica: Para diretrizes sobre rotulação de documentos não estruturados, consulte o Guia do Advanced Designer.

Documentos estruturados

Documentos estruturados sempre incluem exatamente o mesmo tipo de informação nos mesmos locais. Um exemplo são formulários pré-formatados. Você precisará rotular apenas alguns documentos de exemplo para o treinamento, pois não há variação no layout. Use as seguintes diretrizes ao rotular documentos estruturados:
  • Certifique-se de especificar com precisão a região de cada campo, pois apenas os valores dos campos não são suficientes para o treinamento.
  • Para delimitar a região de um campo, não clique no valor; em vez disso, delimite todo o espaço reservado.
  • Se um campo não tiver valor, delimite o espaço reservado vazio.
  • Se um campo for composto por várias partes, mantenha a tecla Shift pressionada para adicionar as partes. Observe que todas as partes devem estar na mesma página.
  • Se um formulário fixo contiver uma tabela, delimite todas as linhas, inclusive as vazias.
  • Se um campo for adicionado depois que parte da rotulagem já tiver sido feita, esse novo campo deverá ser rotulado em todos os documentos do conjunto de treinamento. Revise todos os seus documentos e rotule o novo campo em todos os documentos em que ele ocorrer.

Documentos semiestruturados

Documentos semiestruturados geralmente contêm os mesmos ou tipos semelhantes de informações, mas a localização, o tamanho e a quantidade de campos podem variar de documento para documento. Exemplos de documentos semiestruturados incluem contas, ordens de pagamento e faturas. Use as seguintes diretrizes ao rotular documentos semiestruturados:
  • Certifique-se de especificar com precisão a região de cada campo, pois apenas os valores dos campos não são suficientes para o treinamento.
  • Para demarcar a região de um campo, clique em seu valor (isto é, na palavra ou palavras que ele contém), e a região será criada automaticamente.
  • Se um campo não tiver valor, não crie uma região para esse campo.
  • Não demarque partes de palavras, pois o programa só consegue aprender com palavras inteiras.
  • Se um campo for composto por várias partes, mantenha a tecla Shift pressionada para adicioná-las. Observe que todas as partes devem estar na mesma página.
  • Se você tiver uma estrutura repetida, analise primeiro seus documentos e crie uma tabela ou um grupo repetido. Se seus documentos contiverem tabelas com um cabeçalho comum e valores que não têm palavras-chave ao lado, crie uma tabela. Se seus dados forem menos estruturados e tiverem palavras-chave ao lado dos valores, crie um grupo com a opção Allow multiple items. Se os dados estiverem organizados de maneira diferente em documentos distintos, selecione a opção que melhor atende à maioria dos documentos.
  • Ao rotular uma tabela, demarque a primeira linha e, em seguida, clique em Continue table from this row, certificando-se de que toda a tabela foi rotulada corretamente. Para demarcar as células da primeira linha, clique nelas uma a uma, e as colunas correspondentes serão criadas automaticamente. Prossiga até que toda a tabela tenha sido demarcada.
Dica: Se as tabelas forem grandes e as páginas do documento forem semelhantes na aparência, você pode excluir as páginas semelhantes e rotular a primeira e a última página e algumas páginas intermediárias.
  • Não instrua o programa a encontrar campos dentro da região de outro campo, independentemente de ser um campo individual (como um endereço) ou uma célula de tabela (como “Description”). Se você precisar extrair dados de um fragmento de texto grande, use o Advanced Designer.
  • Se um campo for adicionado após alguma rotulagem já ter sido feita, esse novo campo deve ser rotulado em todos os documentos do conjunto de treinamento. Revise todos os seus documentos e rotule o novo campo em todos os documentos em que ele ocorrer.