跳轉到主要內容
Extraction Rules 活動會處理非結構化文件中已辨識的文字內容。這些規則使用命名實體、關鍵字與正規表示式,為你需要擷取的欄位設定條件。

使用案例

在下列情況下,將此活動加入您的文件處理流程:
  • 如果您已透過 Named Entities (NER) 活動擷取多個相同類型的物件,現在需要找到特定的一個實例。例如,從租賃合約中可以擷取多個 Organization 實體。您可以使用 Extraction Rules 活動來判斷出房東與房客。
  • 如果您沒有足夠的文件可用於 Deep Learning 活動。在此情況下,您可以建立一個 Extraction Rules 活動,並透過關鍵字、正規表示式或其他業務邏輯來擷取所需物件。
  • 如果您需要擷取非標準類型的物件。例如,您可能想擷取日期與時間的組合,而不僅是日期本身。
  • 如果您需要將與同一物件相關的多個欄位加以分組。例如,您可以使用 Extraction Rules 活動,將每個人的姓名、出生日期與地址分組在一起。Named Entities (NER) 活動同樣可以擷取姓名和地址,但無法讓您將地址與其對應的姓名進行比對。

運作方式

此活動使用自然語言處理 (NLP) 在文字中尋找搜尋元素。搜尋元素包括具名實體,以及符合關鍵字或正規表示式的字詞或片語。配合由其他活動擷取的欄位,搜尋元素可以作為擷取規則的組成元件,這些規則會指定欄位相對於其他文字的位置。您可以透過使用者介面 (UI) 輕鬆建立擷取規則,並使用特殊語言進一步自訂。 搜尋元素可以對應到欄位,因此會使用搜尋元素區域中辨識出的文字來填入其對應的欄位。 如需詳細資訊,請參閱 設定擷取規則活動