ABBYY FlexiCapture (以下、システム) は、ストリームで到着する文書からデータを抽出するため、パフォーマンスは一定時間あたりの処理量で測定します。
システムを設計するには、パフォーマンス指標を使って目標パフォーマンスを定義します。
必要な処理時間は、顧客企業の社内手順、サービスレベル契約、業務プロセスの要件によって定義されます。
処理量は、過去のデータや事業成長の傾向、または企業の事業計画に基づきます。広告キャンペーンの成功や会計年度末などにより、処理量が一時的または季節的に増加することがあります。
これらのパラメーターによってシステムのワークロードが決まります。
平均バッチサイズ (ページ数)
画像のカラーモード: カラー、グレースケール、白黒
1日あたりのページ数 (24時間) 、平均/ピーク
1時間あたりのページ数、平均/ピーク
平均文書サイズ (ページ数)
スキャンオペレーター数
検証オペレーター数
文書の保存期間
バッチとは、関連する複数の文書をまとめて処理する単位です。
例: 顧客が処理のために十数件の文書を送信する場合、それらはすべて同じリクエストの下で扱われます。これは、照合やビジネスロジックの都合上、それぞれを個別に処理できないためです。
文書画像にはさまざまな形態があり、たとえば次のようなものがあります。
- カラー、グレースケール、または白黒でスキャンされたコピー
- さまざまな解像度の写真
- メールの添付ファイル (ベクターPDFファイルなど)
文書画像の色調は、次の要因に左右されます。
- 入力データをどの程度制御・変更できるか。
例:スキャンに FlexiCapture クライアントを使用する場合、すべての受信文書に同じスキャンモード (色調) を設定できます。
- 長期保存に関する要件。
例:社内規定により、すべての文書をグレースケール画像としてのみ 5 年間保存しなければならない場合があります。この場合、FlexiCapture クライアントはスキャン段階でカラー画像をグレースケール画像に変換できます。
企業は多くの場合、受信文書を元の形式で保存する義務がありますが、どのような形式が想定されるかを見積もり、いくつかのサンプル画像を用意することは可能です。最もコストがかかるのは、すべての文書画像がカラーであるケースです (ネットワーク転送やファイル保存のコストがかかるため) 。
平均およびピーク性能は、一定時間内に処理されるカラー、グレースケール、または白黒ページの平均処理数と最大処理数として定義されます。この時間は、企業にとって都合のよい単位 (1時間、24時間など) です。
- 時間の区切りは正確に指定してください。「1日」より「24時間」のほうが適切です。「1日」だと、8~12時間の1営業日だけを指すと誤解される可能性があるためです。
- 自社にとって意味のある指標にしてください。そうすることで、システムが要件や期待どおりの性能を発揮しているかを簡単に確認できます。
例: 顧客にとって、確認指標として「1秒あたり0.01ページ」よりも「24時間で1000ページ」という見積もりのほうが適切です。
処理量の見積もりにはドキュメント数ではなくページ数を使用します。これは、ドキュメントごとにサイズが大きく異なるためです。一方で、同じ種類のドキュメントの平均サイズをページ数で見積もるのは通常簡単です。たとえば、請求書は1ページのこともあれば100ページを超えることもありますが、平均すると通常3ページ程度です。
最後に、ハードウェア性能の計算で一般的に使用される、1秒あたりのバイト数およびビット数の値を算出する必要があります。そのために、異なるカラーモードにおけるA4ページの一般的なサイズを使用します。
- A4 白黒 – 100 KB
- A4 グレースケール – 3 MB
- A4 カラー – 10 MB
より正確に見積もるには、実際のドキュメントのサンプルが必要です。
異なるカラーモードのページの一般的なサイズと、1日あたりまたは1時間あたりのページ数の平均値および最大値がわかれば、1秒あたりのバイト数で平均およびピークの入力フローを見積もることができます。
実際には、文書処理の実行中にシステムへ同時にアクセスするユーザー数を指します。ユーザーには 2 種類あります。
- スキャンオペレーターは文書画像をスキャンし、確認・編集した後、Application Server に渡します。
- 検証オペレーターは抽出されたデータを検証・修正し、Application Server から画像をダウンロードして、修正済みデータを送信します。
保存期間は、システム構成やハードウェアコストに大きく影響します。保存期間が長いほど、より大容量の FileStorage が必要になるためです。
システム内での文書の保存期間は重要なパラメーターであり、組織内での文書の保存期間と混同しないようにしてください。
システム内での平均文書保存期間は、多くの場合、平均処理時間に相当します。手動操作を伴う複数の処理段階が関わる場合には、これが数週間に及ぶこともあります。
一方で、システム内での平均文書保存期間が、実際には平均処理時間に、処理完了段階での画像とデータの保存時間を加えたものになるケースもあります。これは、FlexiCapture では、組織内での処理がまだ継続していても、会社の ERP システムへのエクスポート後に文書を処理済みとして扱うためです。つまり、この文書はシステム内の初期処理段階のいずれかに再送される可能性があります。
このため、処理完了 ステータスの文書 (つまり、文書画像と抽出データ) は、次の条件を満たすまで FlexiCapture 内に保存されます。
- すべての業務プロセスを完了する
- 会社のアーカイブに格納される
FlexiCapture は、本来アーカイブシステムではありません。システム内での文書の一般的な保存期間は 2 週間です。