Saltar al contenido principal
Debe etiquetar cierta cantidad de documentos para entrenar y probar una Habilidad. Para ello, seleccione regiones del documento que contengan valores de campo. Para seleccionar una región, haga lo siguiente:
  • Pase el cursor sobre una palabra y haga clic en ella. Esto creará una región y copiará la palabra al campo. Use este método para etiquetar campos que contienen una sola palabra.
  • Dibuje un rectángulo alrededor de varias palabras. Todas las palabras dentro de ese rectángulo se copiarán al campo. Recomendamos usar este método para etiquetar documentos semiestructurados.
  • Seleccione una región haciendo clic en la primera palabra de la secuencia y, mientras mantiene presionado el botón izquierdo del ratón, arrastre el cursor hasta la última palabra de la secuencia. Recomendamos usar este método para etiquetar documentos no estructurados.
Las siguientes directrices le ayudarán a etiquetar sus documentos correctamente según su tipo.

Documentos estructurados

Los documentos estructurados siempre incluyen el mismo tipo de información en las mismas ubicaciones. Un ejemplo de documentos estructurados son los formularios con formato fijo. Solo necesitará etiquetar unos pocos documentos de muestra para el entrenamiento, ya que no hay variantes en su diseño. Siga las pautas a continuación al etiquetar documentos estructurados.
  • Asegúrese de delimitar con precisión la región de cada campo, ya que los valores de los campos por sí solos no son suficientes para el entrenamiento.
  • Para marcar la región de un campo, no haga clic en su valor; en su lugar, delimite todo el marcador.
  • Si un campo no contiene valor, delimite el marcador vacío.
  • Si un campo consta de varias partes, mantenga presionada la tecla Shift para añadir las partes. Tenga en cuenta que todas las partes deben estar en la misma Página.
  • Si un formulario fijo contiene una tabla, delimite todas las filas, incluidas las vacías.
  • Si se agrega un campo después de haber realizado parte del etiquetado, este nuevo campo debe etiquetarse en todos los Documentos del conjunto de entrenamiento. Revise todos sus documentos y etiquete el nuevo campo en todos los documentos donde aparezca.

Documentos semiestructurados

Los documentos semiestructurados suelen contener el mismo tipo de información o tipos similares, pero la ubicación, el tamaño y la cantidad de campos pueden variar de un documento a otro. Entre los ejemplos de documentos semiestructurados se incluyen recibos, órdenes de pago y facturas. Siga estas pautas al etiquetar documentos semiestructurados.
  • Asegúrese de definir con precisión la región de cada campo, ya que los valores de los campos por sí solos no son suficientes para el entrenamiento.
  • Para delimitar la región de un campo, haga clic en su valor (por ejemplo, la palabra o palabras que contiene) y la región se creará automáticamente.
  • Si un campo no contiene ningún valor, no cree una región para ese campo.
  • No marque partes de palabras, ya que el programa solo puede aprender a partir de palabras completas.
  • Si un campo consta de varias partes, mantenga presionada la tecla Shift para añadir las partes. Tenga en cuenta que todas las partes deben estar en la misma Página.
  • Si tiene una estructura repetida, analice primero sus documentos y cree una tabla o un grupo repetido. Si sus documentos contienen tablas con un encabezado común y valores que no tienen palabras clave junto a ellos, cree una tabla. Si sus datos están menos estructurados y tienen palabras clave ubicadas junto a los valores, cree un grupo con la opción Allow multiple items. Si los datos se organizan de manera diferente en distintos documentos, seleccione la opción que mejor se ajuste a la mayoría de los Documentos.
  • Al etiquetar una tabla, marque la primera fila y luego haga clic en Continue table from this row, asegurándose de que toda la tabla haya sido etiquetada correctamente. Para delimitar las celdas de la primera fila, haga clic en sus celdas una por una y las columnas correspondientes se crearán automáticamente. Continúe hasta que toda la tabla haya sido marcada.
Si las tablas son grandes y las páginas del documento tienen una apariencia similar, puede eliminar las páginas similares y etiquetar la primera y la última página, y algunas páginas intermedias.
  • No indique al programa que busque campos dentro de la región de otro campo, independientemente de si se trata de un campo individual (p. ej., una dirección) o de una celda de tabla (p. ej., “Description”). Si necesita extraer datos de un fragmento de texto grande, use una secuencia de actividades. Primero, use una actividad diseñada para extraer datos de documentos semiestructurados y entrénela para encontrar la región deseada. A continuación, para extraer campos específicos de esta región, use una actividad diseñada para extraer datos de texto (NLP) o implemente sus propias reglas mediante scripts.
  • Si se añade un campo después de que ya se haya realizado cierta etiquetación, este nuevo campo debe etiquetarse en todos los Documentos del conjunto de entrenamiento. Revise todos sus documentos y etiquete el nuevo campo en todos los Documentos en los que aparezca.

Documentos no estructurados

Los documentos no estructurados contienen información que no presenta ningún tipo de estructura. Entre los ejemplos de documentos no estructurados se incluyen contratos, artículos científicos y mensajes de correo electrónico. Siga estas directrices al etiquetar documentos no estructurados.
  • Asegúrese de especificar con precisión la región de cada campo, ya que los valores de los campos por sí solos no bastan para el entrenamiento.
  • Al etiquetar segmentos (como campos entrenados en la actividad Segmentation), las regiones deben abarcar uno o más párrafos completos. Un segmento no puede incluir solo una parte de un párrafo.
  • Para definir la región de un campo, haga clic en su valor (es decir, la(s) palabra(s) que contiene) y la región se creará automáticamente.
  • Si un campo no contiene ningún valor, no cree una región para ese campo.
  • No marque partes de palabras, ya que el programa solo puede aprender con palabras completas.
Si a una palabra le sigue un signo de puntuación (por ejemplo, “… y Mary Jones, (“Borrower… ”)), ajuste la región para que no incluya el signo de puntuación.
  • A veces, la región de un campo puede extenderse a la página siguiente (por ejemplo, una cláusula de un contrato). En ese caso, etiquete una parte del campo en la primera página y luego continúe etiquetando en la página siguiente mientras mantiene presionada la tecla Shift.
  • Al crear una región para un campo dentro de la región de otro campo (por ejemplo, para marcar un campo dentro de un segmento), seleccione el campo deseado y comience a etiquetarlo dentro de la región del otro campo. Al hacerlo, no se seleccionará la región existente, sino que se creará una nueva región para el campo seleccionado.