Saltar al contenido principal

Documentation Index

Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt

Use this file to discover all available pages before exploring further.

Para etiquetar un documento, marque las regiones que contienen los valores de los campos e indique al skill qué tipo de dato contiene cada campo. Antes de empezar, elija el método de selección adecuado para la forma del campo y, a continuación, siga las pautas correspondientes para documentos estructurados, semiestructurados o no estructurados.

Métodos de selección

MétodoIdeal para
Coloque el cursor sobre una palabra y haga cliccampos de una sola palabra
Arrastre un rectángulo alrededor de las palabrasDocumentos semiestructurados
Haga clic en la primera palabra y luego arrastre hasta la última (manteniendo presionado el botón izquierdo del ratón)Documentos no estructurados

Documentos estructurados

Documentos estructurados (como formularios prediseñados) siempre contienen la misma información en las mismas ubicaciones. Solo necesita etiquetar unos pocos documentos de muestra porque no hay variaciones en el diseño.
  • Especifique con precisión la región de cada campo: los valores de los campos por sí solos no son suficientes para el entrenamiento.
  • Marque todo el marcador de posición, no el valor dentro de él.
  • Si un campo no contiene ningún valor, marque igualmente el marcador de posición vacío.
  • Para campos de varias partes, mantenga presionada la tecla Shift para agregar partes adicionales. Todas las partes deben estar en la misma página.
  • Para las tablas de un formulario fijo, etiquete cada fila, incluidas las filas vacías.
  • Si agrega un campo nuevo después del etiquetado, vuelva atrás y etiquete ese campo en todos los documentos del conjunto de entrenamiento.

Documentos semiestructurados

Documentos semiestructurados — cuentas, órdenes de pago y facturas — contienen campos similares, pero la ubicación, el tamaño y la cantidad de campos varían de un documento a otro.
  • Especifique con precisión la región de cada campo: los valores de los campos por sí solos no son suficientes para el entrenamiento.
  • Haga clic en el valor del campo (la palabra o palabras que contiene); la región se crea automáticamente.
  • Si un campo no contiene ningún valor, no cree una región para ese campo.
  • No marque palabras incompletas: el sistema solo aprende a partir de palabras completas.
  • En los campos con varias partes, mantenga presionada Shift para agregar partes adicionales. Todas las partes deben estar en la misma página.
  • No indique al programa que busque campos dentro de la región de otro campo (ya sea un campo individual, como una dirección, o una celda de tabla, como Description). Para extraer datos de una región grande, encadene actividades: una actividad de extracción semiestructurada para encontrar la región y, después, una actividad NLP Extraction Rules o una regla de script para extraer de ella campos específicos.
  • Si agrega un campo nuevo después del etiquetado, vuelva atrás y etiquete ese campo en todos los documentos del conjunto de entrenamiento.

Tablas y grupos repetidos

Para datos repetidos, decida entre una tabla y un grupo repetido:
Use esta opciónCuándo
TablaDatos tabulares con un encabezado común y valores sin palabras clave junto a ellos
Grupo repetido con la opción Permitir varios elementosDatos menos estructurados, donde las palabras clave aparecen junto a los valores
Si distintos documentos están organizados de forma diferente, elija la opción que mejor se ajuste a la mayoría. Para etiquetar una tabla, marque las celdas de la primera fila una por una (cada clic crea una columna), luego haga clic en Continuar tabla desde esta fila y verifique que el resto de la tabla esté etiquetado correctamente.
Para tablas grandes en páginas visualmente similares, puede eliminar las páginas intermedias similares y etiquetar solo la primera página, la última y algunas páginas intermedias.

Documentos no estructurados

Documentos no estructurados —contratos, artículos científicos, mensajes de correo electrónico— no tienen una estructura uniforme.
  • Especifique con precisión la región de cada campo: los valores del campo por sí solos no bastan para el entrenamiento.
  • Para los segmentos (campos entrenados por la actividad de Segmentation), incluya uno o varios párrafos completos. Un segmento no puede incluir solo una parte de un párrafo.
  • Haga clic en el valor del campo (la palabra o palabras que contiene); la región se crea automáticamente.
  • Si un campo no contiene ningún valor, no cree una región para él.
  • No marque palabras incompletas: el sistema de entrenamiento aprende solo con palabras completas.
  • Si una palabra va seguida de un signo de puntuación, ajuste la región para que dicho signo no quede incluido.
  • Una región de campo puede abarcar varias páginas (por ejemplo, una cláusula de un contrato). Etiquete la primera parte en la primera página y luego mantenga presionada Shift mientras continúa en la página siguiente.
  • Para etiquetar un campo dentro de la región de otro campo (por ejemplo, un campo dentro de un segmento), seleccione el campo interior y comience a etiquetar: esta acción crea una nueva región en lugar de seleccionar la exterior.
Esto es lo contrario de la directriz sobre documentos semiestructurados indicada arriba: los segmentos en documentos no estructurados están diseñados para contener campos internos, por lo que es intencional etiquetar dentro de ellos. En los documentos semiestructurados, el anidamiento equivalente crea conflictos de entrenamiento.

Etiquetado de documentos

Reutilice documentos etiquetados procedentes de conjuntos de entrenamiento, revisión manual o FlexiCapture.

Importación desde FlexiCapture

Formato y procedimiento para reutilizar documentos etiquetados de FlexiCapture.

Categorías de documentos

Información general sobre documentos estructurados, semiestructurados, no estructurados y mixtos.

Actividad de Segmentation

Se utiliza para segmentar campos en documentos no estructurados.