Pular para o conteúdo principalVocê precisa rotular uma quantidade determinada de documentos para treinar e testar uma Skill. Para isso, selecione regiões no documento que contenham valores de campo. Para selecionar uma região, faça o seguinte:
- Passe o mouse sobre uma palavra e clique nela. Isso criará uma região e copiará a palavra para o campo. Use este método para rotular campos que contenham apenas uma palavra.
- Desenhe um retângulo ao redor de algumas palavras. Todas as palavras dentro desse retângulo serão copiadas para o campo. Recomendamos usar este método para rotular documentos semiestruturados.
- Selecione uma região clicando na primeira palavra da sequência e, mantendo o botão esquerdo do mouse pressionado, arraste o cursor até a última palavra da sequência. Recomendamos usar este método para rotular documentos não estruturados.
As diretrizes abaixo ajudarão você a rotular seus documentos corretamente, de acordo com o tipo.
Documentos estruturados sempre incluem exatamente o mesmo tipo de informação nas mesmas posições. Um exemplo de documentos estruturados são formulários pré-formatados. Você precisará rotular apenas alguns documentos de amostra para o treinamento, pois não há variação no layout.
Siga as diretrizes abaixo ao rotular documentos estruturados.
- Certifique-se de especificar com precisão a região de cada campo, pois apenas os valores dos campos não são suficientes para o treinamento.
- Para demarcar a região de um campo, não clique no seu valor; em vez disso, marque todo o espaço reservado.
- Se um campo não contiver valor, marque o espaço reservado vazio.
- Se um campo for composto por várias partes, mantenha pressionada a tecla Shift para adicionar as partes. Observe que todas as partes devem estar na mesma Página.
- Se um formulário fixo contiver uma tabela, marque todas as linhas, incluindo as vazias.
- Se um campo for adicionado após parte da rotulagem já ter sido feita, esse novo campo deverá ser rotulado em todos os documents no conjunto de treinamento. Revise todos os seus documentos e rotule o novo campo em todos os documentos em que ele ocorrer.
Documentos semiestruturados
Documentos semiestruturados geralmente contêm os mesmos ou semelhantes tipos de informações, mas a localização, o tamanho e a quantidade de campos podem variar de um documento para outro. Exemplos de documentos semiestruturados incluem contas, ordens de pagamento e faturas.
Siga as diretrizes abaixo ao rotular documentos semiestruturados.
- Certifique-se de especificar com precisão a região de cada campo, pois apenas os valores dos campos não são suficientes para o treinamento.
- Para demarcar a região de um campo, clique em seu valor (como a palavra ou palavras que ele contém), e a região será criada automaticamente.
- Se um campo não tiver valor, não crie uma região para esse campo.
- Não demarque partes de palavras, pois o programa só aprende com palavras inteiras.
- Se um campo for composto por várias partes, mantenha a tecla Shift pressionada para adicioná-las. Observe que todas as partes devem estar na mesma Página.
- Se você tiver uma estrutura repetida, analise primeiro seus documentos e crie uma tabela ou um grupo repetido. Se seus documentos contiverem tabelas com um cabeçalho comum e valores que não têm palavras-chave ao lado, crie uma tabela. Se seus dados forem menos estruturados e tiverem palavras-chave ao lado dos valores, crie um grupo com a opção Permitir vários itens. Se os dados estiverem organizados de forma diferente em documentos distintos, selecione a opção que melhor se adapta à maioria dos documentos.
- Ao rotular uma tabela, marque a primeira linha e clique em Continuar tabela a partir desta linha, certificando-se de que toda a tabela foi rotulada corretamente. Para demarcar as células da primeira linha, clique nelas uma a uma, e as colunas correspondentes serão criadas automaticamente. Prossiga até que toda a tabela tenha sido demarcada.
Se as tabelas forem grandes e as páginas do documento tiverem aparência semelhante, você pode excluir as páginas semelhantes e rotular a primeira, a última e algumas páginas intermediárias.
- Não instrua o programa a procurar campos dentro da região de outro campo, independentemente de ser um campo individual (por exemplo, um endereço) ou uma célula de tabela (por exemplo, “Descrição”). Se você precisar extrair dados de um grande fragmento de texto, use uma sequência de atividades. Primeiro, use uma atividade projetada para extrair dados de documentos semiestruturados e treine-a para encontrar a região desejada. Em seguida, para extrair campos específicos dessa região, use uma atividade projetada para extrair dados de texto (NLP) ou implemente suas próprias regras de script.
- Se um campo for adicionado após parte da rotulagem já ter sido feita, esse novo campo deverá ser rotulado em todos os documentos do conjunto de treinamento. Revise todos os seus documentos e rotule o novo campo em todos os documentos em que ele ocorrer.
Documentos não estruturados
Documentos não estruturados contêm informações que não apresentam qualquer organização. Exemplos incluem contratos, artigos científicos e mensagens de e-mail.
Siga as diretrizes abaixo ao rotular documentos não estruturados.
- Certifique-se de especificar com precisão a região de cada campo, pois apenas os valores do campo não são suficientes para o treinamento.
- Ao rotular segmentos (como campos treinados na atividade Segmentation), as regiões devem incluir um ou mais parágrafos inteiros. Um segmento não pode incluir apenas parte de um parágrafo.
- Para demarcar a região de um campo, clique em seu valor (como a palavra ou palavras que ele contém) e a região será criada automaticamente.
- Se um campo não contiver valor, não crie uma região para esse campo.
- Não marque partes de palavras, pois o programa só consegue aprender com palavras inteiras.
Se uma palavra for seguida por um sinal de pontuação (por exemplo, “… e Mary Jones,(“Borrower…”)), ajuste a região para que ela não inclua o sinal de pontuação.
- Às vezes, a região de um campo pode se estender para a próxima Página (por exemplo, uma cláusula em um contrato). Nesse caso, rotule uma parte do campo na primeira Página e, em seguida, continue a rotulagem na Página seguinte mantendo a tecla Shift pressionada.
- Ao criar uma região para um campo dentro da região de outro campo (por exemplo, para demarcar um campo dentro de um segmento), selecione o campo desejado e comece a rotulá-lo dentro da região do outro campo. Isso não selecionará a região existente, mas criará uma nova região para o campo selecionado.