- 認識モード (Fast / Balanced / Normal / Accurate) は、認識速度と、その結果得られるテキストレイヤーの品質を決定します。認識モードを指定するには、Document Definition Editor で Document Definition → Document Definition Properties… → Recognition をクリックします。
- 認識言語は、認識に使用する言語です。認識言語を指定するには、Document Definition Editor で Document Definition → Document Definition Properties… → Document Definition Settings をクリックし、次に国と言語一覧グループで Edit をクリックして必要な言語を選択します。 注: FlexiCapture for Invoices の認識言語は国の設定に関連付けられています。国と言語一覧グループに請求書の国を追加すると、対応する言語が自動的に Document Definition の設定に表示されます。請求書のfieldは認識時に抽出されます。
請求書上のfieldを検出して抽出するために、プログラムでは次の方法を使用できます:
FlexiLayout の使用
ビジネス ユニットとベンダー
ビジネス ユニットとベンダー
以下を使用して、ベンダーとビジネス ユニットを特定できます。
- Document Definition の設定: IBAN (国際銀行口座番号) 、VATID、NationalVATID の書式、および対応するキーワード;
- データセット レコードのfields: IBAN (国際銀行口座番号) , VATID, NationalVATID, Name, 住所, 市区町村, 郵便番号。
自動会社検出アルゴリズム
データセットの列に入力された情報の詳細度と品質は、検出品質に大きな影響を与えます。検索結果をできる限り正確にするために、以下の点を確認してください。- 一意の会社識別子が入力されている 一意の値を持つ列 (VATID、NationalVATID、IBAN) を入力すると、これらの値は各会社に固有であるため、正しく検出される可能性が大幅に高まります。
- 会社レコードに重複がありません 重複するレコードがないと、会社を正しく検出できる可能性が高まります。重複レコードの削除について詳しくは、外部データベース内の重複レコードの削除を参照してください。
- 無関係なレコードが含まれていないこと データセットに古いレコードや無効なレコードが含まれていると、さまざまなフィールド値が偶然似ているために、会社が誤って検出される可能性があります。
- すべての会社レコードで、すべてのfieldが入力されていること 会社に関する情報は、できるだけ多く指定してください。Data setに入力されているfieldが多いほど、会社を正しく検出できる可能性が高くなります。
- 複数値列は、表記の異なる同じ情報を保存するためのものであり、まったく別の情報を保存するものではありません たとえば、1 つの会社に複数の住所がある場合は、他のすべてのfieldに同じ情報が含まれていても、住所ごとに個別のレコードが必要です。詳しくは、ベンダーおよび事業部門データベースの準備を参照してください。
- 一意の識別子の検索
- VATID,
- NationalVATID,
- IBAN (国際銀行口座番号) .
- 文字は大文字に変換されます ,
- スペースと次の文字は削除されます:” . ”、” , ”、” — ”、” / ”、” **** ”。
- 会社名・住所の検索
- 仮説の形成
仮説フィルタリング
仮説は、照合の信頼性 (Data set レコードと文書画像のfield値) に基づいて以下のように分類されます。- 文書画像と確実に一致する;
- 文書画像とのマッチングの信頼性が低い。
- true — フィルタリングが有効で、最終的な仮説は信頼できる仮説の中からのみ選択されます (既定値) ;
- false — フィルタリングは無効になり、最終的な仮説は信頼性にかかわらず、すべての仮説の中から選択されます;
- ベンダーの検出では、信頼性の低い仮説は考慮されません。信頼できる仮説がない場合、ベンダーは検出されません。
- 事業部門を検出する際:
- 少なくとも1つの信頼できる仮説が見つかった場合、信頼性の低い仮説は考慮されません。
- ステップ1~3で得られた仮説の集合に少なくとも1つの信頼できる仮説が含まれていない場合、フラグの値は無視されます。最終的な仮説は、信頼性の低い仮説の中から選択されます。
- 通常、会社の事業部門レコード数は、ベンダーのレコード数よりもはるかに少なくなります。また、変更される頻度もずっと低いため、最新の状態を維持しやすいという利点があります。したがって、信頼できる仮説を検出できれば、最終的な仮説が正しい可能性も高まります。ただし、信頼できる仮説が見つからない場合でも、事業部門の検出は重要です。というのも、検出結果の信頼性を左右する最も重要な要因は、ベンダーとBUのペアに対する信頼性評価だからです。
- 通常、ベンダーのレコード数ははるかに多く、データ セットにもより多くの列が含まれます。これは、ベンダーが請求書上で自社に関する情報を事業部門より多く記載するためです。また、レコードに古い情報が含まれている場合もあるため、仮説フィルタリングの信頼性は、データ セットの品質と検証シナリオの種類の両方に左右されます。
ベンダーと事業部門の検出結果
請求書上のベンダーと事業部門を検出した主な結果を以下に示します:- Vendors データセット内のベンダーレコードの識別子
- BusinessUnits データ セット内の事業部門レコードの識別子
- Name
- VatID
- NationalVatID
- IBAN
- 住所
- 郵便番号
- 市区町村
- Name
- VatID
- 住所
- 郵便番号
- 市区町村
プログラムによるベンダーまたは事業部門の検出方法を変更する方法
データセット内のベンダーまたはビジネス ユニットのレコードが、請求書の画像から抽出されたテキストと高い精度で一致するほど、プログラムはベンダーまたはビジネス ユニットをより正確に検出できます。まず、請求書上の会社を検索するために使用するデータ セットの列に対応する、外部データベース内のデータを特定する必要があります。外部データベースとデータ セットは適切に接続されている必要があります (ベンダーおよびビジネス ユニット データベースの使用を参照) 。同一の企業がベンダーのリストと事業部門のリストの両方に存在する場合、両方のデータセットの該当するレコードに同じ VATID を指定してください (請求書に VATID が記載されていない場合も同様です) 。これにより、プログラムがベンダーと事業部門を誤って検出するのを防ぐことができます。画像上のfield valuesの変動に対応するには、以下を使用します:- データセット列の正規化 (データセット内の値の正規化を参照) 、
- データセットの複数値列 (データセット内の複数値列を参照)。
抽出された値とあわせて、事前に決定したベンダー値および事業部門値を使用する
請求書ヘッダー field グループ
請求書ヘッダー field グループ
InvoiceNumber, InvoiceDate
請求書のヘッダーには、InvoiceNumber fieldや InvoiceDate fieldなどが含まれます。これらのfieldは、Document Definition の言語プロパティで指定されたキーワードを使用して検出されます。まずベンダーと事業部門が検出され、それによりベンダーと事業部門の国に関する情報が得られます。国によって言語が決まります (国に対応する言語は Document Definition で指定されます) 。fieldを見つけるためのキーワード セットは、ベンダーと事業部門の国に基づいて決まります。キーワードを編集し (Keywords を参照) 、学習を使用することで (Training を参照) 、プログラムによるfield 領域の検索方法を変更できます。プログラムは、ドキュメントが請求書であることをどのように判断しますか?
FC は、FlexiLayout を適用するときに、ドキュメントが請求書かどうかを判断します。以下の条件は、ドキュメントが請求書であることを示します。これらの条件をすべて満たす必要はありませんが、それぞれに一定の重みがあります。- InvoiceNumber fieldと InvoiceDate fieldが検出された。
- InvoiceIdentifiers located element のキーワードが検出された (Keywords を参照) 。
- ドキュメント上でベンダーまたは事業部門が検出された。
Amounts field グループ
Amounts field グループ
FCFORINVOICES は、請求書 から次のフィールドを取得します。
Document Definition の情報は、合計金額と税率を見つけるために使用されます。
請求書 の合計金額 (Total) と通貨 (Currency) | はい | はい |
税:
| はい | はい |
| いいえ | はい |
追加税額 (AdditionalCosts) | はい | はい |
- ベンダーの国で適用される税率 (国のプロパティの Tax Rates タブで指定できます。詳細は Country and language settings を参照してください)
- 税率のキーワード (言語のプロパティの Keywords タブで指定できます。詳細は Keywords を参照してください) 。
- AmountTotalHighConfidenceLabels: Total フィールドの近くにのみ現れるキーワード。たとえば、“Pay this amount.” などです。
- AmountTotalLowConfidenceLabels: Total フィールドの近くに現れることがありますが、他のフィールドの近くにも現れる可能性があるキーワード。たとえば、“Total” というキーワードは Total フィールドの近くに現れることがありますが、請求書 上のすべての品目の総重量を示すフィールドの近くに現れる場合もあります。
- 画像上で同じ行または同じ列に 2 回または 3 回現れる数値。このような数値は、税が指定されていない 請求書 では Total である可能性があります。
- 同じ列で、その上にある数値の合計になっている数値。
- ドキュメントの末尾にある、絶対値が最も大きい数値。
購買注文書 field グループ
購買注文書 field グループ
FCFORINVOICES は、請求書からすべての購買注文書番号と、それに対応する金額を抽出できます。この機能は既定で無効になっています (購買注文書のマッチングを参照) 。購買注文書番号を抽出するには、候補となる購買注文書番号とその金額の一覧を含むデータ セットが必要です (PurchaseOrders data setを参照) 。購買注文書 field は、次の方法で抽出できます。XML 構成ファイルの詳細については、XML ファイルでの請求書処理設定の編集を参照してください。
- 正規表現
- 候補となる購買注文書番号を含むデータ セット (PurchaseOrders data setを参照)
- データ セットの VendorId 列を使用します。この場合、プログラムは請求書のベンダーに対応する購買注文書番号のみを使用します。
- すでに請求書を受領済みの購買注文書を除外し、まだ請求書を受領していない購買注文書の番号だけをデータ セットに追加します。
明細 field グループ
明細 field グループ
FCFORINVOICES は、画像から請求書の明細を抽出できます。請求書の明細抽出は、既定で無効になっています (追加 fieldを参照) 。プログラムが自動的に抽出する field の一覧については、抽出される fieldを参照してください。FCFORINVOICES はまず、画像内でテーブルを検索します。この検索では、各言語について Document Definition のプロパティに指定されている列タイトルのキーワードを使用します。請求書の明細の列に対するキーワードは、項目の分類、つまり各請求書明細列の型を判断するためにも使用されます。その後、プログラムは検出された列に関する情報と数式を使用して、請求書内のテーブルから請求書明細を見つけます。最後に、プログラムは請求書明細内で各列から field を検索します。自動的な明細抽出の品質を向上させるために、学習を使用できます。
ニューラル ネットワークの使用
ニューラル ネットワークの主な利点の 1 つは、自己学習能力があることです。ニューラル ネットワークは、入力データ間の複雑な依存関係を検出し、有用な汎化を行うことができます。 このプログラムには、次の field を抽出するために使用できる 2 つのニューラル ネットワークが含まれています。- 請求書番号
- 請求日
- 合計金額
- ベンダー \ 名称
- ベンダー \ 住所
- ビジネス ユニット \ 名称
- ビジネス ユニット \ 住所
- 購買注文書 \ 注文番号
- 明細行:
- 注文番号
- 注文日
- 明細番号
- 品目番号
- 説明
- 数量
- 単位
- 単価
- 税抜合計金額
- VAT率
ニューラル ネットワークを無効にする
- Document Definition Editor を開きます。
- Document Definition Properties… → Document Definition Settings → Additional Fields and Features をクリックします。
- Thorough extraction of invoice line items オプションを無効にします。
- Document Definition Editor を開きます。
- Document Definition Properties… → Document Definition Settings → Additional Fields and Features をクリックします。
- Thorough extraction of invoice header fields オプションを無効にします。
field 検出結果の組み合わせ
プログラムが field 検出結果をどのように組み合わせるか、または最適な結果をどのように選択するかは、field によって異なります。一般的には、各ニューラル ネットワークで得られた結果が優先されます。この原則の例外となるのは、データ セットに基づく検索と、特定の顧客文書用に作成された正規表現を使用する検索です。 請求書ヘッダー field グループ 次の field では、ニューラル ネットワークで得られた結果が常に優先されます。- 請求書番号
- 請求日
- 合計金額
- Name
- VATID (ABN)
- 住所
