Para etiquetar un documento, marque las regiones que contienen los valores de los campos e indique al skill qué tipo de dato contiene cada campo. Antes de empezar, elija el método de selección adecuado para la forma del campo y, a continuación, siga las pautas correspondientes para documentos estructurados, semiestructurados o no estructurados.Documentation Index
Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt
Use this file to discover all available pages before exploring further.
Métodos de selección
| Método | Ideal para |
|---|---|
| Coloque el cursor sobre una palabra y haga clic | campos de una sola palabra |
| Arrastre un rectángulo alrededor de las palabras | Documentos semiestructurados |
| Haga clic en la primera palabra y luego arrastre hasta la última (manteniendo presionado el botón izquierdo del ratón) | Documentos no estructurados |
Documentos estructurados
- Especifique con precisión la región de cada campo: los valores de los campos por sí solos no son suficientes para el entrenamiento.
- Marque todo el marcador de posición, no el valor dentro de él.
- Si un campo no contiene ningún valor, marque igualmente el marcador de posición vacío.
- Para campos de varias partes, mantenga presionada la tecla Shift para agregar partes adicionales. Todas las partes deben estar en la misma página.
- Para las tablas de un formulario fijo, etiquete cada fila, incluidas las filas vacías.
- Si agrega un campo nuevo después del etiquetado, vuelva atrás y etiquete ese campo en todos los documentos del conjunto de entrenamiento.
Documentos semiestructurados
- Especifique con precisión la región de cada campo: los valores de los campos por sí solos no son suficientes para el entrenamiento.
- Haga clic en el valor del campo (la palabra o palabras que contiene); la región se crea automáticamente.
- Si un campo no contiene ningún valor, no cree una región para ese campo.
- No marque palabras incompletas: el sistema solo aprende a partir de palabras completas.
- En los campos con varias partes, mantenga presionada Shift para agregar partes adicionales. Todas las partes deben estar en la misma página.
- No indique al programa que busque campos dentro de la región de otro campo (ya sea un campo individual, como una dirección, o una celda de tabla, como Description). Para extraer datos de una región grande, encadene actividades: una actividad de extracción semiestructurada para encontrar la región y, después, una actividad NLP Extraction Rules o una regla de script para extraer de ella campos específicos.
- Si agrega un campo nuevo después del etiquetado, vuelva atrás y etiquete ese campo en todos los documentos del conjunto de entrenamiento.
Tablas y grupos repetidos
| Use esta opción | Cuándo |
|---|---|
| Tabla | Datos tabulares con un encabezado común y valores sin palabras clave junto a ellos |
| Grupo repetido con la opción Permitir varios elementos | Datos menos estructurados, donde las palabras clave aparecen junto a los valores |
Documentos no estructurados
- Especifique con precisión la región de cada campo: los valores del campo por sí solos no bastan para el entrenamiento.
- Para los segmentos (campos entrenados por la actividad de Segmentation), incluya uno o varios párrafos completos. Un segmento no puede incluir solo una parte de un párrafo.
- Haga clic en el valor del campo (la palabra o palabras que contiene); la región se crea automáticamente.
- Si un campo no contiene ningún valor, no cree una región para él.
- No marque palabras incompletas: el sistema de entrenamiento aprende solo con palabras completas.
- Si una palabra va seguida de un signo de puntuación, ajuste la región para que dicho signo no quede incluido.
- Una región de campo puede abarcar varias páginas (por ejemplo, una cláusula de un contrato). Etiquete la primera parte en la primera página y luego mantenga presionada Shift mientras continúa en la página siguiente.
- Para etiquetar un campo dentro de la región de otro campo (por ejemplo, un campo dentro de un segmento), seleccione el campo interior y comience a etiquetar: esta acción crea una nueva región en lugar de seleccionar la exterior.
Esto es lo contrario de la directriz sobre documentos semiestructurados indicada arriba: los segmentos en documentos no estructurados están diseñados para contener campos internos, por lo que es intencional etiquetar dentro de ellos. En los documentos semiestructurados, el anidamiento equivalente crea conflictos de entrenamiento.
Etiquetado de documentos
Reutilice documentos etiquetados procedentes de conjuntos de entrenamiento, revisión manual o FlexiCapture.
Importación desde FlexiCapture
Formato y procedimiento para reutilizar documentos etiquetados de FlexiCapture.
Categorías de documentos
Información general sobre documentos estructurados, semiestructurados, no estructurados y mixtos.
Actividad de Segmentation
Se utiliza para segmentar campos en documentos no estructurados.
