跳轉到主要內容
搜尋元素可用來為要擷取的物件類型及其屬性設定條件。由於 NLP 作業處理的是非結構化文字,搜尋條件會指定物件相對於其他文字的位置,而非它們的幾何關係。你也可以使用輔助搜尋元素來縮小搜尋範圍,指定所需物件位於這些輔助元素之內、之前或之後。

建立搜尋元素

  • 您可以按一下影像上其中一個醒目顯示的物件,快速建立搜尋元素。新的搜尋元素將與您按一下的物件類型相同。使用工具列上的 Show Image Objects 按鈕來選取要醒目顯示的物件。

醒目提示物件

可以醒目提示下列類型的物件:
  • Person
  • Organization
  • Address
  • Location
  • Date
  • Duration
  • Money
  • Recognized words
注意: 除了辨識文字以外,所有這些物件預設都會被醒目提示。
  • 您也可以使用選單建立新的搜尋元素:
  1. 前往文件視窗右側的 Search Elements 索引標籤。
  2. 按一下 Create Element
  3. 在隨即開啟的清單中選取所需的元素類型。
建立元素後,您需要在 Properties 窗格中設定其屬性(如需更多資訊,請參閱「元素屬性」。)
注意: 指定的屬性也可以以程式碼格式檢視和編輯(如需更多資訊,請參閱「NLP 的 Extraction Rules 活動的程式碼語法」。)

搜尋元素類型

在建立搜尋元素時,您需要指定其類型,該類型會依您想要尋找的物件而定。可用的搜尋元素類型簡要說明如下。

Person

人物姓名,例如:John Doe、Jane Smith。

組織

組織名稱,例如:ABBYY、Acme Corp.

Address

地址,例如:123 Main Str., Anytown AB 45678。

位置

地點名稱,例如:Anytown、Corporate Place。

日期

日期可以採用不同格式,例如:November 14, 2009、11/14/2009。

持續時間

時間長度,例如:十二(12)個月、4 天。

金額

金額,例如:$2670.00、199 美元 99 分。 注意: PersonOrganizationAddressLocationDateDurationMoney 元素對應於您可以在 Named Entities (NER) 活動中設定的命名實體,並且使用相同的技術進行擷取。

從字典取得值

來自字典的一個字詞或片語。字典應為純文字 TXT 檔案,內容為搜尋文字各種變體的清單,每行一個變體。

來自正則表達式的值

符合您指定的正則表達式的值。

Text

關鍵字或片語,可選擇搜尋所有詞形,或允許一定程度的識別錯誤。

群組

一組巢狀的搜尋元素。構成群組的元素可以是簡單元素或群組元素。群組元素本身不具任何屬性。資料會根據其內含巢狀搜尋元素的設定來擷取。 群組元素可用來建立元素之間的邏輯階層,方便除錯與導覽。 例如,將某個人的姓名、地址和出生日期分組,可以讓你以一致的方式擷取每個人的相關資料。

重複群組

此元素用於尋找會重複出現的元素群組。重複群組適用於某個實體可能有多個實例、且每個實例都有自己的屬性,但您事先不知道會有多少個實例的情況。每個實例的屬性是在重複群組的巢狀元素中指定。 例如,如果您正在處理履歷,您可能會想建立一個「Education」重複群組,並在其中加入下列巢狀元素:「School_name」、「Degree」、「Start_date」和「Graduation_date」。 另一方面,如果您要尋找的資料與具有不同角色的不同實體相關,則重複群組就不是正確的選擇。例如,如果一份合約中只有兩個當事方,例如買方與賣方,請建立「Party1_Buyer」群組與「Party2_Seller」群組,而不要建立一個重複的「Party」群組。

輸入欄位

此元素可讓你將其他活動擷取的欄位作為規則的組成元件。例如,如果在 Extraction Rules 活動之前有一個 Segmentation 活動,你可能會想使用其中某些區段來縮小搜尋範圍。

更改清單中元素的類型、名稱與位置

若要更改元素的類型:
  • 在元素上按一下滑鼠右鍵,然後在快捷功能表中選取 Convert Element to
  • 在清單中選取一個元素並按一下影像上的醒目顯示物件。這會讓您能夠將所選搜尋元素轉換為該醒目顯示物件的類型。若您按一下醒目顯示的已辨識字詞,便可將搜尋元素轉換為 Text,並同時將所選字詞新增到此搜尋元素的關鍵字清單中。
  • 對於對應到具名實體的搜尋元素,使用 Entities 屬性來變更具名實體的類型。
Note: 變更元素類型不會將非群組元素轉換為群組元素,反之亦然。
若要變更元素名稱:
  • 在元素上按一下滑鼠右鍵,在快捷功能表中選取 Rename,然後輸入新名稱。
  • 選取一個元素,按一下它的名稱(或按 F2),然後輸入新名稱。
元素名稱可以包含英文字母、數字與底線。然而,元素名稱不能以數字開頭。不允許空格、特殊符號(.,:- \ /)和保留名稱。 若要在清單中移動元素:
  • 拖曳元素向上或向下以變更其在清單中的位置。
  • 將元素拖曳到群組元素上,以將它們放入該群組中。
Note: 系統會自上而下搜尋元素。這表示,在其他元素的搜尋條件中使用到的元素,必須在元素清單中排在該元素之前。