Pular para o conteúdo principal
Você precisa rotular um certo número de documentos para treinar e testar uma Skill. As diretrizes abaixo ajudarão você a rotular seus documentos corretamente.
Dica: Para diretrizes sobre rotulação de documentos não estruturados, consulte o Guia do Advanced Designer.

Documentos estruturados

Documentos estruturados sempre incluem o mesmo tipo de informação exatamente nos mesmos locais. Um exemplo de documentos estruturados são formulários pré-formatados. Você precisará rotular apenas alguns documentos de exemplo para treinamento, pois não há variação no layout. Use as seguintes diretrizes ao rotular documentos estruturados:
  • Certifique-se de especificar com precisão a região de cada campo, pois apenas os valores dos campos não são suficientes para o treinamento.
  • Para marcar a região de um campo, não clique no valor; em vez disso, marque todo o espaço reservado.
  • Se um campo não tiver valor, marque o espaço reservado vazio.
  • Se um campo for composto por várias partes, mantenha a tecla Shift pressionada para adicionar as partes. Observe que todas as partes devem estar na mesma página.
  • Se um formulário fixo contiver uma tabela, marque todas as linhas, incluindo as vazias.
  • Se um campo for adicionado após parte da rotulagem já ter sido feita, esse novo campo deve ser rotulado em todos os documentos do conjunto de treinamento. Revise todos os seus documentos e rotule o novo campo em todos os documentos em que ele ocorrer.

Documentos semiestruturados

Documentos semiestruturados geralmente contêm os mesmos ou semelhantes tipos de informações, mas a localização, o tamanho e a quantidade de campos podem variar de documento para documento. Exemplos de documentos semiestruturados incluem contas, ordens de pagamento e faturas. Use as seguintes diretrizes ao rotular documentos semiestruturados:
  • Certifique-se de especificar com precisão a região de cada campo, pois os valores dos campos, por si só, não são suficientes para o treinamento.
  • Para demarcar a região de um campo, clique no valor dele (ou seja, na(s) palavra(s) que contém), e a região será criada automaticamente.
  • Se um campo não contiver valor, não crie uma região para esse campo.
  • Não demarque partes de palavras, pois o programa só aprende com palavras inteiras.
  • Se um campo for composto por várias partes, mantenha a tecla Shift pressionada para adicionar as partes. Observe que todas as partes devem estar na mesma página.
  • Se você tiver uma estrutura repetida, analise primeiro seus documentos e crie uma tabela ou um grupo repetido. Se seus documentos tiverem tabelas com um cabeçalho comum e valores sem palavras-chave ao lado, crie uma tabela. Se seus dados forem menos estruturados e tiverem palavras-chave ao lado dos valores, crie um grupo com a opção Allow multiple items. Se os dados estiverem organizados de maneira diferente em documentos distintos, selecione a opção que melhor se adequa à maioria dos documentos.
  • Ao rotular uma tabela, marque a primeira linha e clique em Continue table from this row, certificando-se de que toda a tabela foi rotulada corretamente. Para demarcar as células da primeira linha, clique nelas uma a uma, e as colunas correspondentes serão criadas automaticamente. Prossiga até que toda a tabela tenha sido demarcada.
Dica: Se as tabelas forem grandes e as páginas do documento tiverem aparência semelhante, você pode excluir as páginas semelhantes e rotular a primeira e a última página e algumas páginas intermediárias.
  • Não instrua o programa a procurar campos dentro da região de outro campo, independentemente de ser um campo individual (como um endereço) ou uma célula de tabela (como “Description”). Se você precisar extrair dados de um grande fragmento de texto, use o Advanced Designer.
  • Se um campo for adicionado depois que alguma rotulagem já tiver sido feita, esse novo campo deverá ser rotulado em todos os documentos do conjunto de treinamento. Revise todos os seus documentos e rotule o novo campo em todos os documentos em que ele ocorrer.