Pular para o conteúdo principalVocê precisa rotular uma determinada quantidade de documentos para treinar e testar uma Skill. Para isso, selecione regiões no documento que contenham valores de campo. Para selecionar uma região, faça o seguinte:
- Passe o cursor sobre uma palavra e clique nela. Isso criará uma região e copiará a palavra para o campo. Use este método para rotular campos que contenham apenas uma palavra.
- Desenhe um retângulo ao redor de algumas palavras. Todas as palavras dentro desse retângulo serão copiadas para o campo. Recomendamos usar este método para rotular documentos semiestruturados.
- Selecione uma região clicando na primeira palavra da sequência e, mantendo o botão esquerdo do mouse pressionado, arraste o cursor até a última palavra da sequência. Recomendamos usar este método para rotular documentos não estruturados.
As diretrizes abaixo ajudarão você a rotular corretamente seus documentos, de acordo com o tipo.
Documentos estruturados sempre contêm o mesmo tipo de informação exatamente nas mesmas posições. Um exemplo são os formulários pré-formatados. Você precisará rotular apenas alguns documentos de exemplo para o treinamento, pois não há variação no layout.
Siga as diretrizes abaixo ao rotular documentos estruturados.
- Certifique-se de especificar com precisão a região de cada campo, pois apenas os valores dos campos não são suficientes para o treinamento.
- Para demarcar a região de um campo, não clique no valor; em vez disso, selecione todo o espaço reservado.
- Se um campo não contiver valor, demarque o espaço reservado vazio.
- Se um campo consistir em várias partes, mantenha pressionada a tecla Shift para adicionar as partes. Observe que todas as partes devem estar na mesma página.
- Se um formulário fixo contiver uma tabela, demarque todas as linhas, incluindo as vazias.
- Se um campo for adicionado após parte da rotulagem já ter sido feita, esse novo campo deverá ser rotulado em todos os documents no conjunto de treinamento. Revise todos os seus documentos e rotule o novo campo em todos os documentos em que ele ocorrer.
Documentos semiestruturados
Documentos semiestruturados geralmente contêm os mesmos ou tipos semelhantes de informações, mas a localização, o tamanho e a quantidade de campos podem variar de documento para documento. Exemplos incluem contas, ordens de pagamento e faturas.
Siga as diretrizes abaixo ao rotular documentos semiestruturados.
- Certifique-se de especificar com precisão a região de cada campo, pois apenas os valores dos campos não são suficientes para o treinamento.
- Para marcar a região de um campo, clique em seu valor (como a palavra ou palavras que ele contém), e a região será criada automaticamente.
- Se um campo não tiver valor, não crie uma região para ele.
- Não marque partes de palavras, pois o programa só aprende com palavras inteiras.
- Se um campo for composto por várias partes, mantenha a tecla Shift pressionada para adicionar as partes. Observe que todas as partes devem estar na mesma página.
- Se você tiver uma estrutura repetida, analise primeiro seus documentos e crie uma tabela ou um grupo repetido. Se seus documentos contiverem tabelas com um cabeçalho comum e valores que não têm palavras-chave ao lado, crie uma tabela. Se seus dados forem menos estruturados e tiverem palavras-chave localizadas próximas aos valores, crie um grupo com a opção Permitir vários itens. Se os dados estiverem organizados de forma diferente em documentos distintos, selecione a opção que melhor se adequa à maioria dos documentos.
- Ao rotular uma tabela, marque a primeira linha e, em seguida, clique em Continuar tabela a partir desta linha, certificando-se de que toda a tabela foi rotulada corretamente. Para marcar as células da primeira linha, clique nelas uma a uma, e as colunas correspondentes serão criadas automaticamente. Prossiga até que toda a tabela tenha sido marcada.
Se as tabelas forem grandes e as páginas do documento forem semelhantes visualmente, você pode excluir as páginas repetidas e rotular a primeira e a última página, além de algumas páginas intermediárias.
- Não instrua o programa a encontrar campos dentro da região de outro campo, seja um campo individual (por exemplo, um endereço) ou uma célula de tabela (por exemplo, “Descrição”). Se você precisar extrair dados de um fragmento de texto grande, use uma sequência de atividades. Primeiro, use uma atividade projetada para extrair dados de documentos semiestruturados e treine-a para encontrar a região desejada. Em seguida, para extrair campos específicos dessa região, use uma atividade projetada para extrair dados de texto (NLP) ou implemente suas próprias regras de script.
- Se um campo for adicionado após já ter sido feito algum rotulamento, esse novo campo deverá ser rotulado em todos os documentos do conjunto de treinamento. Revise todos os seus documentos e rotule o novo campo em todos os documentos em que ele ocorrer.
Documentos não estruturados
Documentos não estruturados contêm informações que não seguem qualquer estrutura. Exemplos incluem contratos, artigos científicos e mensagens de e-mail.
Siga as orientações abaixo ao rotular documentos não estruturados.
- Certifique-se de especificar com precisão a região de cada campo, pois apenas os valores dos campos não são suficientes para o treinamento.
- Ao rotular segmentos (como campos treinados na atividade Segmentation), as regiões devem incluir um ou mais parágrafos inteiros. Um segmento não pode incluir apenas parte de um parágrafo.
- Para definir a região de um campo, clique no seu valor (por exemplo, a palavra ou palavras que ele contém) e a região será criada automaticamente.
- Se um campo não tiver valor, não crie uma região para ele.
- Não marque partes de palavras, pois o programa só pode aprender com palavras inteiras.
Se uma palavra for seguida de um sinal de pontuação (por exemplo, ”… e Mary Jones,(“Borrower… ”)), ajuste a região para que ela não inclua o sinal de pontuação.
- Às vezes, a região de um campo pode se estender para a próxima Página (por exemplo, uma cláusula em um contrato). Nesse caso, rotule uma parte do campo na primeira Página e continue rotulando na Página seguinte mantendo a tecla Shift pressionada.
- Ao criar a região de um campo dentro da região de outro campo (por exemplo, para marcar um campo dentro de um segmento), selecione o campo desejado e comece a rotulá-lo dentro da região do outro campo. Isso não selecionará a região existente, mas criará uma nova região para o campo selecionado.