Saltar al contenido principal
Debe etiquetar una cierta cantidad de documentos para entrenar y probar una Habilidad. Las siguientes pautas le ayudarán a etiquetar sus documentos correctamente.
Tip: Para obtener pautas sobre el etiquetado de documentos no estructurados, consulte la guía de Advanced Designer.

Documentos estructurados

Los documentos estructurados siempre incluyen el mismo tipo de información en las mismas ubicaciones. Un ejemplo de documentos estructurados son los formularios preformateados. Solo necesitará etiquetar unos pocos documentos de ejemplo para el entrenamiento, ya que no hay variantes en su diseño. Use las siguientes pautas al etiquetar documentos estructurados:
  • Asegúrese de especificar con precisión la región de cada campo, ya que los valores del campo por sí solos no son suficientes para el entrenamiento.
  • Para delimitar la región de un campo, no haga clic en su valor; marque todo el marcador de posición.
  • Si un campo no contiene ningún valor, marque el marcador de posición vacío.
  • If a field consists of multiple parts, hold down the Shift key to add the parts. Please note that all parts should be on the same Página.
  • If a fixed form contains a table, mark out all the rows, including those that are empty.
  • If a field is added after some labeling has already been done, this new field must be labeled on all the documents in the training set. Please review all of your documents and label the new field on all the documents where it occurs.

Documentos semiestructurados

Los documentos semiestructurados generalmente contienen el mismo tipo de información o tipos similares, pero la ubicación, el tamaño y la cantidad de campos pueden variar de un documento a otro. Ejemplos de documentos semiestructurados incluyen recibos, órdenes de pago y facturas. Use las siguientes pautas al etiquetar documentos semiestructurados:
  • Asegúrese de especificar con precisión la región de cada campo, ya que los valores de los campos por sí solos no son suficientes para el entrenamiento.
  • Para delimitar la región de un campo, haga clic en su valor (es decir, la palabra o palabras que contiene) y la región se creará automáticamente.
  • Si un campo no tiene valor, no cree una región para ese campo.
  • No marque partes de palabras, ya que el programa solo puede aprender con palabras completas.
  • Si un campo consta de varias partes, mantenga presionada la tecla Shift para agregarlas. Tenga en cuenta que todas las partes deben estar en la misma página.
  • Si tiene una estructura repetida, analice primero sus documentos y cree una tabla o un grupo repetido. Si sus documentos contienen tablas con un encabezado común y valores que no tienen palabras clave junto a ellos, cree una tabla. Si sus datos están menos estructurados y tienen palabras clave ubicadas junto a los valores, cree un grupo con la opción Allow multiple items. Si los datos están organizados de manera diferente en distintos documentos, seleccione la opción que mejor se ajuste a la mayoría de los documentos.
  • Al etiquetar una tabla, marque la primera fila y luego haga clic en Continue table from this row, asegurándose de que toda la tabla haya sido etiquetada correctamente. Para delimitar las celdas de la primera fila, haga clic en sus celdas una por una y las columnas correspondientes se crearán automáticamente. Continúe hasta que toda la tabla haya sido delimitada.
Tip: Si las tablas son grandes y las páginas del documento son similares en apariencia, puede eliminar las páginas similares y etiquetar la primera y la última página, y algunas páginas intermedias.
  • No indique al programa que busque campos dentro de la región de otro campo, independientemente de si es un campo individual (como una dirección) o una celda de tabla (como “Description”). Si necesita extraer datos de un fragmento de texto grande, use el Advanced Designer.
  • Si se agrega un campo después de que ya se haya realizado cierta etiquetación, este nuevo campo debe etiquetarse en todos los documentos del conjunto de entrenamiento. Revise todos sus documentos y etiquete el nuevo campo en todos los documentos en los que aparezca.