Search Element 是對一個或多個文件影像物件的描述,讓您可以在特定區域內為物件設定搜尋條件。元素包含正在搜尋的影像物件類型、該物件的屬性以及其搜尋區域等資訊。使用元素屬性取得的搜尋結果,會由活動用來形成影像上偵測到之物件的區域──由一個或多個矩形組成、包圍偵測物件的區域。接著,欄位與其他元素的位置會根據已偵測元素的位置來決定。
若要建立元素,按一下 Create Element,並在出現的清單中選取適當的元素類型。建立元素後,您需要在 Properties 窗格中設定其屬性 (如需詳細資訊,請參閱 Element Properties) 。指定的屬性也可以以程式碼格式檢視及編輯 (如需詳細資訊,請參閱 FlexiLayout Language) 。元素可以依據文件的結構在樹狀結構中移動。請注意,元素在樹狀結構中的位置會決定其搜尋順序。元素會依照由上而下的順序進行搜尋。
建立搜尋元素時,請根據您需要尋找的物件來選擇其類型。以下是 Extraction Rules 活動中可用的搜尋元素類型之簡短說明。
建立搜尋元素後,請設定其屬性,相關說明請參閱 此處。
此元素描述預先定義的文字。大多數文件影像通常包含一些靜態文字。這些文字可以是文件名稱 (例如 “Invoice”) ,也可以是資料欄位的附加標籤 (例如 “Date”、“to:”、“from:”) 。這類文字在預先辨識期間會被識別為 Recognized Words 物件,並通常作為偵測對應欄位數值的錨點 (例如,日期通常寫在標籤 “Date” 旁邊) 。此文字可以由單字或片語組成。片語與單字不同之處在於它至少包含一個空格。片語也可能橫跨多行書寫。在搜尋此元素時,會考慮於影像預先辨識期間偵測到、且位於該元素搜尋區域內的 Recognized Words 和 Recognized Lines 物件。
此元素描述在單一行 (由左至右) 上的一連串字元。字元序列是由已辨識的文字物件 (Recognized Words) 組成,例如整個單字或多個文字物件的片段。此元素用於搜尋尚未預先定義的文字。會將在影像預先辨識期間偵測到、且位於元素搜尋區域內的 Recognized Words 物件納入考量。
通常,此活動會在已偵測到的靜態文字周圍區域搜尋字元序列。例如,當尋找發票號碼時,需要先找到靜態文字「Invoice No.」,之後活動會在同一行上、該靜態文字右側搜尋字元字串 (在此情況下僅限數字) 。
由於僅支援由左至右的讀寫方向,此活動不會在阿拉伯文和希伯來文中搜尋 Character String 元素。
此元素描述一個文字段落。使用此元素進行搜尋時,會考慮所有與搜尋區域相交的文字物件。此元素用來搜尋尚未預先定義的文字段落。在預先辨識階段偵測到且位於元素搜尋區域內的 Recognized Words 和 Recognized Lines 物件都會納入考量。
這是一個用來搜尋帶有標籤之欄位的群組元素。若要建立此元素,您需要指定標籤的屬性、主要搜尋欄位,以及兩者之間的距離。您也可以為主要元素指定類型及對應的屬性。靜態文字與空白區域會作為主要欄位的次要搜尋依據。在搜尋靜態文字時,會考慮影像預先辨識期間偵測到、且位於元素搜尋欄位內的 Recognized Words 與 Recognized Lines 物件。一旦偵測到靜態文字元素,活動便會搜尋包含該元素值的對應欄位。
此元素用於描述日期。日期可以有不同的格式,其中「日」與「年」的數值一律以數字表示,而「月」的值有時也可以用文字表示。日期格式由使用者自行指定。
此元素描述的是數值,可以是整數,或是含有兩位小數的數值。預設情況下,允許使用小數點作為小數部分的佔位符。例如,12. 會被識別為 12.00。整數部分可以使用分隔符分組 (預設允許空格以及以下符號作為分隔符:. , ’) 。要搜尋的數字可以具有前綴與後綴,例如位於數值之前或之後的文字元素。前綴必須與數值位於同一行。此格式通常用於金額,並以貨幣名稱作為前綴。
此元素用於描述電話號碼,通常會搭配一個關鍵字 (例如「Tel.」、「Home Tel.」等) ,以及一個城市/地區代碼,並以括號與其餘號碼分隔。電話號碼與其對應的關鍵字必須位於同一行。
此元素表示文件影像上的一塊區域,而不對其內容做任何具體限定。Region 元素可以由數個互不相連的區域組成。此元素在作業中用於標記區域,而不考慮其中包含哪些物件。在以下情況下應使用此元素:當同一個欄位在不同文件上是透過不同元素偵測到時,例如同一個日期欄位同時透過 Date 與 Character String 元素來尋找,因為該日期可能同時以標準與非標準格式指定。在這種情況下,Date 與 Character String 是次要元素,而 Region 則用於記錄擷取結果。
此元素描述垂直或水平的分隔符,用於搜尋分隔線。在影像預先辨識期間偵測到且完全位於元素搜尋區域內的分隔符物件會被納入考量。此類物件可以完全位於搜尋區域內,也可以只與該區域相交。
此元素用來描述影像上的一個矩形區域,該區域幾乎不會包含其他物件。可在搜尋其他元素時作為輔助元素使用。
例如,如果在處理中的文件上,地址與文件抬頭之間一律會有一個白色間隙,則可以使用「白色間隙」元素來搜尋包含地址的元素。
此元素用於描述條碼。此元素旨在偵測 Advanced Designer 所支援的條碼類型。於影像預先辨識階段偵測到且位於此元素搜尋區域內的條碼物件都會被納入考量。
此元素用來描述各種類型物件的集合,且所有物件都符合搜尋條件。物件集合元素通常用於尋找無法透過任何其他元素類型偵測到的物件。舉例來說,此元素可用來尋找不屬於任何文字行或其他文字物件的獨立標點符號,以及因包含大量無關物件而無法被辨識的文字內容。此元素也可用來尋找非文字物件,例如影像或標記。
這是一組由多個其他元素 (稱為子元素) 所組成的集合。子元素可以是簡單元素或群組元素。我們不建議使用不包含任何子元素的群組元素。
群組元素可以用於以下目的:
- 將元素分組在一起。這可以讓您更容易針對
Extraction Rules 活動中彼此獨立的部分進行偵錯。舉例來說,您的活動可能包含 100 個元素,被分成 3 個部分:頁首、主體、頁尾。這 3 個群組元素中的每一個都包含更多群組元素,用來搜尋活動中邏輯部分的小片段。除了減少活動必須考慮的可能性數量之外,使用這樣的結構還能確保未來在偵錯與編輯時更加容易,因為它已被拆分為相互獨立的部分。
- 在樹狀結構中維持元素的邏輯階層,讓活動的瀏覽更加容易。
- 減少元素假設的可能數量,加速對整個活動最終假設的搜尋。將元素分組在一起,讓那個元素群組可以被視為具有自身假設的單一實體,從而可以對整個群組進行品質評估。
- 複合元素可讓您指定適用於所有子元素的共用搜尋區域限制。對於群組元素中的某個特定子元素而言,其搜尋區域將被計算為該子元素搜尋區域與群組元素搜尋區域的交集。
元素 (無論是群組還是簡單元素) 都可以是必填、選填或禁止出現。如果一個選填的複合元素包含必填的子元素,而該子元素未成功比對,將會導致對該群組元素形成空假設 (null hypothesis) 。這不會中斷 Extraction Rules 活動的比對過程。
此元素用於尋找重複出現的元素群組 (實例數量未知) ,常見的例子是資料表格。重複元素與一般複合元素的不同之處在於其重複參數設定。此群組可以在同一頁面上出現多次,也可以分布在整個文件中。由於此群組會在文件內重複出現,該元素允許你將其所有實例 (包含其重複參數設定) 作為單一元素加以描述。因此,使用重複群組可以更快速地描述文件結構。
此元素可用於執行下列操作:
- 尋找表格。
- 在多頁文件的每個頁面上尋找頁首。
- 尋找未知數量的重複資料項目。
此元素用於偵測由其他活動擷取出的欄位區域。此元素可用來尋找其他元素。
例如,如果某個 skill 包含一個在訓練後始終會保留在影像上的欄位,則可在使用 Extraction Rules 活動搜尋元素時,將其用作錨點欄位。為此,請建立一個 Input Field 元素,並在 skill 結構中選取相應的欄位。系統會建立一個 Region 元素,其中包含在 Search Conditions 索引標籤中將該元素與所選欄位連結的程式碼。
此元素可存取由 Deep Learning 活動找到的值,而該活動會將其輸出傳遞給 Hypothesis Filtering 容器內的 Extraction Rules 活動。此元素僅能在 Hypothesis Filtering 容器中使用。
您可以透過為此搜尋元素指定條件來控制 Deep Learning 活動的輸出。例如,如果 Deep Learning 活動被設定為尋找會重複出現的值,您可以設定要擷取之實例的偏好位置。