Vai al contenuto principale
Per suddividere un flusso di pagine da file che contengono più documenti in documenti separati pronti per l’elaborazione successiva, crea una Skill Document Splitter.

Separazione dei documenti dello stesso tipo

Supponiamo che tu abbia un file che contiene più documenti dello stesso tipo (ad esempio, una raccolta di fatture dello stesso fornitore per un determinato periodo). Ogni fattura avrà il proprio numero e potrebbe riportare i numeri di pagina. Questi e altri dati possono essere utilizzati per separare i documenti tra loro. Puoi utilizzare un’attività Extraction Rules per configurare l’estrazione dei numeri della fattura e dei numeri di pagina. Puoi anche utilizzare un’attività Classify se la prima pagina di un documento differisce in modo significativo dalle altre pagine. Quindi puoi utilizzare l’attività Splitter Script per analizzare i valori estratti e determinare se la pagina corrente è la prima pagina di un nuovo documento.

Separazione dei documenti e rimozione degli allegati

Supponiamo che i documenti da elaborare siano accompagnati da documenti esplicativi che devono essere archiviati ma dai quali non va estratto alcun dato. In questo caso, puoi usare un’attività Classify per classificare le pagine nei documenti del tipo richiesto e nei relativi allegati. Puoi anche usare un’attività Extraction Rules per verificare se su una pagina è possibile trovare dati utili. Una pagina priva di dati utili è probabilmente una pagina di allegato. Quindi puoi usare l’attività Splitter Script per aggiungere le pagine di allegato a ciascun documento oppure inserirle in documenti separati.

Separazione dei documenti e determinazione del loro tipo

Supponiamo che tu disponga di un file contenente più documenti di tipologie diverse (ad esempio una domanda di prestito accompagnata da documenti d’identità, dichiarazioni dei redditi, estratti conto bancari, utenze e altri documenti). In questo caso puoi utilizzare un’attività Classify per classificare ogni pagina e un’attività Extraction Rules per estrarre i dati necessari a stabilire se la pagina corrente è la prima pagina di un nuovo documento. Quindi puoi usare l’attività Splitter Script per definire le regole per separare i documenti e determinarne il tipo.

Riordinare le pagine e rimuovere quelle vuote

Supponiamo che tu debba riordinare le pagine o rimuovere pagine vuote o spurie risultanti da una scansione approssimativa. In genere, il riordinamento è possibile solo se le pagine contengono dati che indicano l’ordine corretto (ad esempio, i numeri di pagina). In questo caso, puoi creare un field che estragga i numeri di pagina. Puoi anche creare un field per cercare qualsiasi testo su una Pagina, così da scartare le pagine vuote come spurie. Utilizzando l’attività Splitter Script, puoi riordinare le pagine in base al loro numero e creare un documento separato che contenga tutte le pagine vuote o spurie. Document Splitter Workflow

Passaggi per creare una Skill di suddivisione dei documenti

  1. Apri ABBYY Vantage Advanced Designer e crea una nuova Skill di suddivisione dei documenti facendo clic su Create Splitter Skill nella pagina iniziale.
  2. Nella scheda Documenti, carica i file. Ogni set di documenti dovrebbe contenere file appartenenti a un’unica transaction di business. Il set di file sorgente verrà convertito in pagine separate. Nota che tutte le attività, tranne l’attività Splitter Script, elaboreranno ogni Pagina separatamente.
  3. Configura il flusso di elaborazione dei documenti per estrarre dati utili a determinare il tipo di documento di ogni Pagina nella transaction e a individuare dove termina un documento e ne inizia un altro. a. Configura una Classify activity per classificare le Pagine se il flusso di Pagine sorgente contiene diversi tipi di documenti o se la prima Pagina di ciascun documento differisce in modo significativo dalle altre Pagine. b. Se necessario, etichetta i field o aggiungi altre attività per estrarre dati che possano essere utilizzati per separare documenti dello stesso tipo o determinare la classe di un documento.
  4. Configura l’attività Splitter Script aggiungendo i tipi di documento nel riquadro Splitter Script Properties e impostando lo script che convertirà il flusso di Pagine in un set di documenti. Lo script ha accesso a tutte le Pagine di una transaction e può analizzare i dati delle altre attività per determinare quali Pagine sono le prime Pagine di nuovi documenti.
  5. Metti alla prova la tua skill facendo clic su Test Skill Using Selected Documents e analizza i risultati ottenuti.
  6. Quando sei soddisfatto dei risultati, pubblica la tua skill.