Saltar al contenido principal
En esta etapa, debe establecer lo siguiente:
  • ¿Hay algún patrón o método en la disposición de los campos en las imágenes?
  • ¿En qué elementos se puede confiar para buscar los campos de datos?
  • ¿En qué orden debemos buscar los elementos? (Esto es importante, porque en cada paso posterior solo podemos basarnos en los elementos del paso anterior).
Como estamos tratando con un documento de varias páginas, primero debemos determinar qué objetos pueden usarse para identificar la primera y la última página del documento. Estos objetos pueden describirse mediante elementos compuestos especiales Header y Footer.
  • El elemento Header debe coincidir únicamente con la primera página del documento.
Si un proyecto también contiene documentos de otros tipos, estos elementos también se usarán como identificadores (es decir, como una característica única que identifica este tipo de documento).
  • El elemento Footer debe coincidir únicamente con la última página del documento. Recomendamos crear subelementos obligatorios en este grupo para evitar que el elemento Footer se empareje con cualquier otra página del documento.
Una vez que haya analizado las imágenes, observará lo siguiente:
  1. En la primera página, hay un grupo de campos formado por InvoiceNumber, InvoiceDate y DeliveryAddress. El nombre del campo InvoiceNumber siempre aparece al principio de cada documento, mientras que InvoiceDate y DeliveryAddress no siempre están presentes.
    • Los campos InvoiceNumber y InvoiceDate pueden encontrarse a la derecha de sus nombres correspondientes o debajo de ellos.
    • En el caso de DeliveryAddress, también debemos buscar a la derecha o debajo del nombre correspondiente, tras haber limitado el área de búsqueda. Además, necesitaremos un elemento para restringir el área de búsqueda por debajo.
    • Como en algunas imágenes estos campos no tienen valor, puede acelerar el proceso de emparejamiento especificando la siguiente condición: no busque el valor de un campo si no se ha detectado el nombre del campo.
  2. Podemos usar este grupo de campos como identificador de nuestro documento. Describiremos estos campos como parte de un elemento Header compuesto llamado InvoiceHeader.
  3. La última página del documento contiene las palabras TOTAL AMOUNT MUST, Carried over, Total CHF, TOTAL debajo de la tabla. Sin embargo, estas palabras también pueden aparecer en otras partes del documento (por ejemplo, en el nombre o en el body de la tabla). Para encontrar estas palabras, necesitaremos usar elementos de referencia adicionales (por ejemplo, nombres de columnas de la tabla). Estos elementos de referencia nos ayudarán a restringir el área de búsqueda.
  4. Los elementos que describen la última página del documento formarán parte de un elemento Footer compuesto llamado InvoiceFooter.
  5. Para que el elemento Footer coincida únicamente con la última página del documento, debe contener un elemento obligatorio. Como las palabras que identifican la última página (consulte el punto 3 anterior) aparecen en cada última página de cada documento, haremos que el elemento que las describe sea un elemento obligatorio.
  6. La tabla (llámela InvoiceTable) comienza en la primera página y termina en la última. Además, la tabla siempre va precedida por los nombres de las columnas en la primera página. Para identificar el final de la tabla (en la última página), usaremos un elemento auxiliar (por ejemplo, el elemento obligatorio del grupo InvoiceFooter). Nota. El conjunto de todas las páginas de un documento se denomina lienzo multipágina. Un lienzo multipágina se forma uniendo todas las páginas de un documento de arriba abajo, sin ningún espacio, con el borde izquierdo de todas las páginas situado en el mismo eje, que pasa por el punto (0, 0). El orden en que se unen las páginas viene determinado por el orden de las páginas en el batch; por lo tanto, solo podemos especificar el inicio de la tabla (su encabezado en la primera página) y el final de la tabla (su pie en la última página). El programa buscará la tabla en todo el documento, es decir, en todo el lienzo multipágina.
  7. Buscaremos el nombre de la empresa en el campo Company siempre en la primera página y siempre en el tercio superior de la página.
  8. El nombre del campo Monto total siempre se encuentra en la última página, debajo de la tabla. El valor del campo se encuentra a la derecha del nombre o debajo de él.