- Passe o mouse sobre uma palavra e clique nela. Isso criará uma região e copiará a palavra para o campo. Use este método para rotular campos que contenham apenas uma palavra.
- Desenhe um retângulo ao redor de algumas palavras. Todas as palavras dentro desse retângulo serão copiadas para o campo. Recomendamos usar este método para rotular documentos semiestruturados.
- Selecione uma região clicando na primeira palavra da sequência e, mantendo o botão esquerdo do mouse pressionado, arraste o cursor até a última palavra da sequência. Recomendamos usar este método para rotular documentos não estruturados.
Documentos estruturados
- Certifique-se de especificar com precisão a região de cada campo, pois apenas os valores dos campos não são suficientes para o treinamento.
- Para demarcar a região de um campo, não clique no seu valor; em vez disso, marque todo o espaço reservado.
- Se um campo não contiver valor, marque o espaço reservado vazio.
- Se um campo for composto por várias partes, mantenha pressionada a tecla Shift para adicionar as partes. Observe que todas as partes devem estar na mesma Página.
- Se um formulário fixo contiver uma tabela, marque todas as linhas, incluindo as vazias.
- Se um campo for adicionado após parte da rotulagem já ter sido feita, esse novo campo deverá ser rotulado em todos os documents no conjunto de treinamento. Revise todos os seus documentos e rotule o novo campo em todos os documentos em que ele ocorrer.
Documentos semiestruturados
- Certifique-se de especificar com precisão a região de cada campo, pois apenas os valores dos campos não são suficientes para o treinamento.
- Para demarcar a região de um campo, clique em seu valor (como a palavra ou palavras que ele contém), e a região será criada automaticamente.
- Se um campo não tiver valor, não crie uma região para esse campo.
- Não demarque partes de palavras, pois o programa só aprende com palavras inteiras.
- Se um campo for composto por várias partes, mantenha a tecla Shift pressionada para adicioná-las. Observe que todas as partes devem estar na mesma Página.
- Se você tiver uma estrutura repetida, analise primeiro seus documentos e crie uma tabela ou um grupo repetido. Se seus documentos contiverem tabelas com um cabeçalho comum e valores que não têm palavras-chave ao lado, crie uma tabela. Se seus dados forem menos estruturados e tiverem palavras-chave ao lado dos valores, crie um grupo com a opção Permitir vários itens. Se os dados estiverem organizados de forma diferente em documentos distintos, selecione a opção que melhor se adapta à maioria dos documentos.
- Ao rotular uma tabela, marque a primeira linha e clique em Continuar tabela a partir desta linha, certificando-se de que toda a tabela foi rotulada corretamente. Para demarcar as células da primeira linha, clique nelas uma a uma, e as colunas correspondentes serão criadas automaticamente. Prossiga até que toda a tabela tenha sido demarcada.
- Não instrua o programa a procurar campos dentro da região de outro campo, independentemente de ser um campo individual (por exemplo, um endereço) ou uma célula de tabela (por exemplo, “Descrição”). Se você precisar extrair dados de um grande fragmento de texto, use uma sequência de atividades. Primeiro, use uma atividade projetada para extrair dados de documentos semiestruturados e treine-a para encontrar a região desejada. Em seguida, para extrair campos específicos dessa região, use uma atividade projetada para extrair dados de texto (NLP) ou implemente suas próprias regras de script.
- Se um campo for adicionado após parte da rotulagem já ter sido feita, esse novo campo deverá ser rotulado em todos os documentos do conjunto de treinamento. Revise todos os seus documentos e rotule o novo campo em todos os documentos em que ele ocorrer.
Documentos não estruturados
- Certifique-se de especificar com precisão a região de cada campo, pois apenas os valores do campo não são suficientes para o treinamento.
- Ao rotular segmentos (como campos treinados na atividade Segmentation), as regiões devem incluir um ou mais parágrafos inteiros. Um segmento não pode incluir apenas parte de um parágrafo.
- Para demarcar a região de um campo, clique em seu valor (como a palavra ou palavras que ele contém) e a região será criada automaticamente.
- Se um campo não contiver valor, não crie uma região para esse campo.
- Não marque partes de palavras, pois o programa só consegue aprender com palavras inteiras.
- Às vezes, a região de um campo pode se estender para a próxima Página (por exemplo, uma cláusula em um contrato). Nesse caso, rotule uma parte do campo na primeira Página e, em seguida, continue a rotulagem na Página seguinte mantendo a tecla Shift pressionada.
- Ao criar uma região para um campo dentro da região de outro campo (por exemplo, para demarcar um campo dentro de um segmento), selecione o campo desejado e comece a rotulá-lo dentro da região do outro campo. Isso não selecionará a região existente, mas criará uma nova região para o campo selecionado.
