Optical Character Recognition (OCR)とその他の認識技術

Optical Character Recognition (OCR)

Optical Character Recognition (OCR)技術 — 印字テキストの認識は211言語に対応しており、以下が含まれます。
- ヨーロッパ言語 (ラテン文字、キリル文字、アルメニア文字、ギリシャ文字)
- 中国語 (簡体字、繁体字) 、日本語、韓国語 (CJK)
- アラビア語、タイ語、ベトナム語、ヘブライ語、ペルシャ語
- ビルマ語 — テクニカルプレビュー版
- FineReader XIX — 17～20世紀に出版された古い文書、書籍、新聞のデジタル化とアーカイブ向けに特別に設計されたOptical Character Recognition (OCR)モジュールです。これらの資料の多くは希少かつ唯一無二のもので、図書館や政府機関の歴史的アーカイブに保管されており、保存すべき国の文化遺産です。FineReader XIXは、1600年から1937年までに英語、フランス語、ドイツ語、イタリア語、スペイン語で出版されたテキストを認識できる独自の機能を提供します。Fraktur、Schwabacher、その他大半のゴシック系書体などの古い字体の認識に対応しています。

56言語では辞書／形態素解析のサポートにより、Optical Character Recognition (OCR)精度が大幅に向上します。
多言語文書認識機能では、同一文書内でドイツ語と中国語、英語・ロシア語・韓国語など、複数の言語を認識できます。
ドットマトリクス文書の認識 — ABBYY FineReader Engineは、多様な種類のドットマトリクス印字テキストを認識します。ドットマトリクス、デイジーホイール、チェーン、バンドプリンターなど、さまざまなプリンターで出力された数千のサンプルに加え、ドラフト印刷モードおよびNear Letter Quality (NLQ) 印刷モードのサンプルも使用して学習されています。
タイプライター文書の認識。
OCR-A、OCR-B、MICR (E13B) 、CMC7フォントの認識。

サポートされている言語の全一覧およびテキストタイプを参照してください。

インテリジェント文字認識 (ICR)

ICR技術 — 126を超える言語の手書き活字体を認識。
39言語 (ラテン、ギリシャ、キリル文字) で形態素解析／辞書をサポート。
アラブ諸国で使用されるインド数字に対応したICR。
世界のさまざまな国や地域で使用される30種類の地域別手書き活字体スタイル (サポート対象のICR言語向け) 。
fieldやフレーム内の手書き活字体を認識 — 下線付きfield、ボックス、櫛形のfieldなど。
多言語ICR。ABBYY ICR技術の主な利点の1つは、fieldに大文字と小文字が混在している場合でも、数字のみ、または1つ以上の言語の文字を含む数字に対しても、ほぼ同等の高い認識精度を実現できることです。

Optical Mark Recognition (OMR)

ABBYYのOMR技術は、単純なチェックマーク、グループ化されたチェックマーク、モデルチェックマーク、さらに手書きで「修正」されたものを含むさまざまな種類のチェックマークを認識します。

四角い枠内のチェックマーク
空白背景上のチェックマーク
非標準のチェックマーク (特殊なチェックマークは、認識する前にトレーニングが必要です)

OMRの認識精度は99.995 %です

Optical Barcode Recognition (OBR)

1Dおよび2Dバーコードへの対応。ABBYY Optical Character Recognition (OCR) SDKは、主要な1Dおよび2Dバーコードの認識をサポートしています。サポートされているバーコードタイプの一覧を参照してください。
高速なバーコード抽出。この機能により、文書上のあらゆる角度にあるバーコードを自動的に検出して認識できます。1Dバーコードと2Dバーコードの両方に対応しています

認識モード

Engine の定義済み処理モードを使用すると、開発者はニーズに最も適した形で、処理速度と精度をすばやく設定および調整できます。デフォルトの処理モードに加えて、Optical Character Recognition (OCR) と ICR の両方で、通常、高速、高精度の認識モードを使用できます。

高精度認識モード 最高品質の認識結果を得るための、最も高精度なモードです。認識したコンテンツを再利用する予定がある場合や、精度が特に重要となるその他のタスクでは、このモードを強く推奨します。
高速認識モード 大量の文書処理や、速度が最優先されるケース向けに設計されています。このモードでは処理速度が 200～250% 向上するため、コンテンツ管理 (CMS)、文書管理 (DMS)、アーカイブシステムでの利用に最適です。
通常認識モード 高精度モードと高速モードの中間にあたる認識精度と処理速度を設定します。一般に、高精度モードとほぼ同等の精度を維持しながら、より高速に処理できます。

全文認識とフィールドレベル認識

認識には、大きく分けて2つの種類があります。全文認識とフィールドレベル認識です。主な違いは、全文認識は通常 Optical Character Recognition (OCR) 技術を含み、文書変換に使用されることです。フィールドレベル認識には、Optical Character Recognition (OCR)、ICR、および特定のデータを認識・抽出するために特定領域で使用されるその他の技術が含まれます。次の表は、これらの認識タイプの仕様を示しています。

仕様	全文認識	フィールドレベル認識
使用箇所	文書変換、書籍のアーカイブ	データキャプチャ
文書解析	一般的な文書解析, 請求書向けの文書解析, 全文インデックス向けの文書解析	フィールドレベル認識のための手動ブロック指定
認識	一般的な精度が約 96～99% の Optical Character Recognition (OCR)	あらかじめ定義されたデータ型と値の範囲に対する Optical Character Recognition (OCR)、ICR、OMR、バーコード認識。精度は約 100%
検証	コンテンツの再利用には推奨	ほとんどの場合必須
合成	文書検索に使用	使用しない
認識結果の出力	文書ファイル (RTF、DOCX、PDF など)	XML ファイルまたはデータベースへ出力

全文認識全文認識は、次のようなさまざまなタスクに対応する基本的な認識タイプです。

これらはいずれも、文書 (ページ) 上の全文を認識 (Optical Character Recognition (OCR)) する必要があります。認識の前には通常、ページの分割や向きの補正、テキストブロック、画像、その他のオブジェクトの検出を行うために文書解析が実行されます。その後、Optical Character Recognition (OCR) の後に文書合成によって文書の構造とレイアウトが再構築され (コンテンツ再利用タスクの場合) 、あるいは複数のテキスト列や画像を含む複雑な文書でも正しいテキスト順序が取得されます (アーカイブのシナリオの場合) 。認識されたテキストは、タスクに応じてプレーンテキストとして、または対応形式の文書として出力されます。特に今後再利用する場合に精度を高めるため、テキストを手動で検証できます。フィールドレベル認識 ABBYY FineReader Engine 12 は、フォーム処理、キーワード分類、キーワードインデックス作成などの主要な業務プロセスを支援するための完全なフィールドレベル認識機能を提供します。強力な画像処理機能により、認識精度に影響を与える可能性のあるさまざまな画像上の特徴 (たとえば、下線付きテキスト、スキャン後のごみ、テキスト内の空白など) があっても、品質を問わず小さなゾーン領域を高精度に検出できます。フィールドレベル認識、またはゾーン認識の主な機能には、多言語 Optical Character Recognition (OCR) および ICR、OMR、バーコード認識のほか、次のような各種の特定機能が含まれます。

コンボボックス、下線付き field、ボックス、さらにはデータが field 枠内に収まらない field を含む、さまざまな境界線やフレームを持つ field からのデータ抽出
アルファベット、辞書、正規表現、分割の種類、手書きスタイル (Windows のみ) などを設定して field の内容を定義
field 内の空白を検出し、空白が許可される field を正確に認識。ABBYY FineReader Engine 12 では、空白を含む語句の組み合わせを含む辞書も使用可能
一部や線が交差するブロックを高度に処理し、ブロック境界内に完全に含まれるテキスト (単語および文字) のみを認識することで、無関係なテキストブロックの認識に費やす時間を削減
テキストブロックのデスペックル処理。白または黒の「ごみ」のサイズを指定可能

フィールドレベル認識は、Voting API や “On-the-Fly” Recognition Tuning など、開発者向けの Engine の特別なツールによって支えられています。詳細については、高度な開発ツールを参照してください。

ユーザー言語

ABBYY FineReader Engine には、認識言語を作成および編集するための API が用意されており、定義済みの認識言語のコピーを作成して調整したり、ユーザー言語に新しい単語を追加したりできます。たとえば、文書に製品コード、電話番号、パスポート番号などの「構造」が含まれていると、認識エラーが発生することがあります。これは、プログラムがこのような構造を文字ごとに読み取るためです。製品コードなどの認識精度を高めるには、特定の種類のデータをプログラムが正しく読み取れるようにする新しい認識言語を作成できます。以下に、ユーザー言語が認識品質の向上にどのように役立つかを示す 2 つの例を紹介します。

手書きで記入された文書では、フォームの field に入る値は通常、都市名、国名、郵便番号、製品コード、金額など、特定の集合に属します。ICR 認識の品質を向上させるには、各 field に入力される可能性のある情報をユーザー言語で記述できます。
文書に製品コード、電話番号、パスポート番号などの「構造」が含まれていると、認識エラーが発生することがあります。これは、プログラムがこのような構造を文字ごとに読み取るためです。製品コードなどの認識精度を高めるには、特定の種類のデータをプログラムが正しく読み取れるようにする新しい認識言語を作成できます。

パターントレーニング

ほとんどの場合、ABBYY FineReader Engine は事前にトレーニングを行わなくてもテキストを正しく読み取ることができます。ただし、装飾文字や縁取り文字の認識、あるいは印字品質の低い文書を大量に入力する場合には、事前のパターントレーニングが役立ちます。この Optical Character Recognition (OCR) SDK では、API を使用してユーザーパターンを直接作成し、利用できます。画像を読み込み、対応する文字と関連付けることで、パターンを学習させることができます。