跳轉到主要內容
您可以透過下列其中一種方式新增文字欄位:
  • 在文件影像上指定欄位區域:按一下欄位的值(游標移過時會以綠色反白),或在欄位值周圍框選一個矩形區域。之後,新欄位會出現在資料表單中。您可以在資料表單中按兩下欄位名稱,或在欄位屬性中按一下欄位名稱來修改它。按三下可選取整個名稱。若要開啟欄位屬性,請按一下 Field options 按鈕。
  • 也可以先在工具列上按一下 Add Field,將新欄位新增到資料表單,然後在影像上框選欄位區域。這會將所選區域內偵測到的資料指定為資料表單中該欄位的值。
您也可以在資料表單中的既有欄位中新增新的文字欄位區域:在資料表單中選取對應的欄位,然後按一下其在文件影像上的位置。若欄位需要包含多個字詞,請框選整個欄位區域以選取多個字詞。

新增具有多個區域的文字欄位

由於下列原因,有些文字欄位在單一文件上需要多個區域:
  • 某些欄位值可能從一行文字開始並在另一行結束。
  • 某些欄位值可能從一個頁面開始並在另一個頁面結束。
若要新增具有多個區域的文字欄位,請依下列步驟進行:
  • 使用上述方法之一新增欄位。
  • 按住 Shift 鍵,為已新增的欄位選取其他區域。
文字欄位的區域也可以標記為:
  • 位於不同頁面上
  • 位於欄位的另一個區域之內(在此情況下,內部區域會以較深的顏色醒目顯示,當其取得焦點時,則會以黃色醒目顯示)。

文字欄位的一般屬性

  • 欄位名稱。在特定技能中欄位的唯一名稱。欄位名稱不得包含句點、逗號、斜線、冒號、星號、問號、引號、小於符號、大於符號或垂直線等特殊字元。欄位名稱允許的最大長度為 90 個字元。
  • 資料型別。欄位所包含的資料類型。這是文字欄位中極為重要的參數,因為它會影響辨識的準確性。每種資料類型都有其對欄位值的限制條件,藉此縮小每個字元可能的取值範圍,讓資料擷取更加精確。
Data typeDescription
Text可包含拉丁字母、西里爾字母、數字、表意文字和特殊字元。
Date任何格式的日期和時間。可用作分隔符號的字元包括:句點 (.)、空格 ( )、連字號 (-)、反斜線 () 和正斜線 (/)。
Number可包含數字、小數分隔符號以及百分比字元 (%)。可用作小數分隔符號的字元包括:句點 (.)、逗號 (,)、連字號 (-)、等號 (=) 和空格 ( )。可用作千位分隔符號的字元包括:句點 (.)、逗號 (,)、單引號 (’) 和空格 ( )。
Money同時包含數值與貨幣符號。貨幣符號可以放在金額之前或之後。
範例: 小寫字母「l」、大寫字母「I」和數字「1」的外觀可能非常相似。如果在 Number 或 Currency Amount 欄位中偵測到這類相似的字元,系統會將其辨識為「1」,因為這類型的欄位不得包含字母。
  • 允許多個項目。指定欄位是否為重複欄位。重複欄位的實例可以對應到多個相同類型的物件,例如子女姓名或帳戶號碼。
  • 必要欄位。指定欄位的值不可留空。啟用此屬性會在頁面中新增一個驗證規則。如果擷取後欄位仍為空,文件將會以錯誤狀態送交手動審核。
  • 關鍵欄位。指定欄位的值是否用於搜尋文件。
  • 維度欄位。指定欄位的值是否用於在技能監控中取得有關技能處理作業的詳細資訊。

文字外觀

這組屬性與欄位中預期字元的外觀有關。
  • 文字來源。指定欄位是只能包含印刷文字、只能包含手寫文字,或兩者皆可。如果您透過在文件上標記矩形區域來新增欄位,此屬性的值會依據在該區域中找到的字元類型來設定。如果您透過按一下 Add Field 來新增欄位,此屬性的值預設為 Printed
您可以在此處找到支援手寫文字辨識的所有語言清單。
注意: 對於新的文件 Skill,預設會啟用手寫文字辨識。若要停用或再次啟用,請按一下技能名稱右側的技能設定圖示,然後前往 Languages 標籤頁,並在 Text Appearance 區段中選取 Handwritten 選項。
  • 消除欄位背景。如果欄位有邊框、逐字方框或預留文字,則可以使用此選項來提升辨識準確度。啟用此選項後,您必須上傳將用作背景辨識範本的空白表單文件,並在空白表單上標註對應的欄位。空白表單文件會出現在 Document Set 中,並會以圖示加以標示。
  • 特殊字型。如果預期欄位包含以特定字型輸入的文字,您可以使用此選項選取字型類型,以提升辨識準確度。亦可選取多種字型。

支援的字型

字型說明字型範例
Fax通常由傳真機使用的字型。Fax 字型
Gothic採用 Gothic 字體印刷的文字。Gothic 字型
Index僅包含以郵遞區號(ZIP 碼)風格書寫數字的一組特殊字元。Index 字型
Matrix printer以點陣印表機列印的文字。Matrix 字型
MICR CMC-7特殊的 MICR 條碼字型(CMC-7)。CMC-7 字型
MICR E-13B一組以磁性墨水列印的特殊數字字元。MICR(Magnetic Ink Character Recognition,磁性墨水字元辨識)字元可見於各種文件上,包括個人支票。E-13B 字型
OCR-A為 Optical Character Recognition(OCR,光學字元辨識)設計的等寬字型,廣泛用於銀行、信用卡公司及類似企業。OCR-A 字型
OCR-B為 Optical Character Recognition(OCR,光學字元辨識)設計的字型。OCR-B 字型
Receipt辨識器會預期文字品質較低,主要為收據上常見的等寬或一般字型。Receipt 字型
Typewriter以打字機打出的文字。Typewriter 字型

文字欄位的其他屬性

其他屬性會依據為該欄位所指定的資料類型而定。

Text

Value 設定群組:
  • Maximum length。欄位中允許的最大字元數。如果擷取值的字元數超過此長度,將會顯示錯誤訊息。若流程中包含手動審核階段,該文件將被送交手動審核。
  • Regular expression。此選項可讓您新增正規表示式(亦即欄位值結構的形式化描述)。使用正規表示式設定的欄位,可以包含在資料表單中定義的字母、數字及其他字元。
使用正規表示式可以提高擷取的準確度,也就是在文字中尋找模式,藉由限制有效字元集來影響擷取結果。例如,如果某個文字欄位只包含數字,您可以指定一個描述此欄位結構僅由數字構成的正規表示式。在這種情況下,當辨識該欄位時,程式會嘗試將每個字元辨識為數字。您也可以為特定的電話號碼格式指定正規表示式(範例 1),或檢查欄位是否包含 2 個單字,且其中一個是數字,例如 50 lbs(範例 2): Example 1(適用於類似 1-(234)-567-8900 或 2 (987) 654 3211 的電話號碼)
/^(1|2)(\-|\s)\([\d]{3}\)(\-|\s)[\d]{3}(\-|\s)[\d]{4}$/
範例 2(適用於重量值為 50lb/50lbs/50Lb/50Lbs/50 lb/50 lbs 等情況)
/^[\d]*(\s)?(L|l)b(s)?$/
注意: 正則表達式不會影響 PDF 文件中的文字辨識。

日期

數值可以包含 設定群組:
  • 時間。應為可能同時包含時間的日期欄位選取此選項。若不允許時間值,則在辨識期間將不會擷取時間。
  • 星期幾。此選項允許在日期欄位中指定星期幾。若不允許星期幾的值,則在辨識期間將不會擷取。
  • 以名稱表示的月份。此選項允許以文字方式指定月份。
允許的元件順序 設定群組可讓您從下列選項中選取合適的日期格式:日-月-年度月-日-年度年度-月-日。您也可以同時指定多種不同的格式。若偵測到的日期格式與已指定的日期格式不相符,該文件將會連同錯誤一起送交手動審核。 允許的日期 設定群組可讓您指定有效日期的範圍。您可以藉由選取文件處理之日之前與之後的月數,來指定有效範圍。月數必須以整數指定。系統會使用規則檢查指定日期是否位於所指定的範圍內。若不在範圍內,規則將顯示錯誤,且文件會被送交手動審核。

Number

Value 設定群組可讓您指定偵測到的值屬於哪一種數字(整數或小數),以及在此欄位中允許偵測到的數字格式。若此欄位的值不符合指定需求,文件將會送交手動審核。
  • Integers only 指定該值只能為整數。若在啟用此選項時於欄位中偵測到帶有分隔符號的數字,這些分隔符號將會被視為千位分隔符。
  • Fractional part may contain more than two digits。如果預期擷取值的小數部分會超過兩位數,請啟用此選項。可作為小數分隔符的字元包括:句點 (.)、逗號 (,)、連字號 (-)、等號 (=) 和空格 ( )。
  • May have negative values。此選項允許擷取值為負數。負值可以以負號或括號表示。
  • May include ’%’ symbol。此選項允許擷取值在數值前或後包含百分比符號。
Number must be within interval 設定群組可讓您指定一個區間,值必須落在該區間內才會被視為有效。區間範圍是透過指定最大值與最小值來設定。這些值可以是整數或小數,也可以指定為負數。系統會使用規則檢查該值是否位於指定範圍內;若不在範圍內,規則會顯示錯誤,並將文件送交手動審核。

Money

Money 屬性與 Number 屬性相同,唯一的差異是 Money 欄位不允許包含百分比符號。

另請參閱