Optical Character Recognition (OCR)
- Optical Character Recognition (OCR)技術 — 印字テキストの認識は211言語に対応しており、以下が含まれます。
- ヨーロッパ言語 (ラテン文字、キリル文字、アルメニア文字、ギリシャ文字)
- 中国語 (簡体字、繁体字) 、日本語、韓国語 (CJK)
- アラビア語、タイ語、ベトナム語、ヘブライ語、ペルシャ語
- ビルマ語 — テクニカルプレビュー版
- FineReader XIX — 17~20世紀に出版された古い文書、書籍、新聞のデジタル化とアーカイブ向けに特別に設計されたOptical Character Recognition (OCR)モジュールです。これらの資料の多くは希少かつ唯一無二のもので、図書館や政府機関の歴史的アーカイブに保管されており、保存すべき国の文化遺産です。FineReader XIXは、1600年から1937年までに英語、フランス語、ドイツ語、イタリア語、スペイン語で出版されたテキストを認識できる独自の機能を提供します。Fraktur、Schwabacher、その他大半のゴシック系書体などの古い字体の認識に対応しています。

- 56言語では辞書/形態素解析のサポートにより、Optical Character Recognition (OCR)精度が大幅に向上します。
- 多言語文書認識機能では、同一文書内でドイツ語と中国語、英語・ロシア語・韓国語など、複数の言語を認識できます。
- ドットマトリクス文書の認識 — ABBYY FineReader Engineは、多様な種類のドットマトリクス印字テキストを認識します。ドットマトリクス、デイジーホイール、チェーン、バンドプリンターなど、さまざまなプリンターで出力された数千のサンプルに加え、ドラフト印刷モードおよびNear Letter Quality (NLQ) 印刷モードのサンプルも使用して学習されています。
- タイプライター文書の認識。
- OCR-A、OCR-B、MICR (E13B) 、CMC7フォントの認識。
インテリジェント文字認識 (ICR)
- ICR技術 — 126を超える言語の手書き活字体を認識。
- 39言語 (ラテン、ギリシャ、キリル文字) で形態素解析/辞書をサポート。
- アラブ諸国で使用されるインド数字に対応したICR。
- 世界のさまざまな国や地域で使用される30種類の地域別手書き活字体スタイル (サポート対象のICR言語向け) 。
- fieldやフレーム内の手書き活字体を認識 — 下線付きfield、ボックス、櫛形のfieldなど。
- 多言語ICR。ABBYY ICR技術の主な利点の1つは、fieldに大文字と小文字が混在している場合でも、数字のみ、または1つ以上の言語の文字を含む数字に対しても、ほぼ同等の高い認識精度を実現できることです。
Optical Mark Recognition (OMR)
- 四角い枠内のチェックマーク
- 空白背景上のチェックマーク
- 非標準のチェックマーク (特殊なチェックマークは、認識する前にトレーニングが必要です)
Optical Barcode Recognition (OBR)
- 1Dおよび2Dバーコードへの対応。ABBYY Optical Character Recognition (OCR) SDKは、主要な1Dおよび2Dバーコードの認識をサポートしています。サポートされているバーコードタイプの一覧を参照してください。
- 高速なバーコード抽出。この機能により、文書上のあらゆる角度にあるバーコードを自動的に検出して認識できます。1Dバーコードと2Dバーコードの両方に対応しています
認識モード
- 高精度認識モード
- 高速認識モード
- 通常認識モード
全文認識とフィールドレベル認識
| 仕様 | 全文認識 | フィールドレベル認識 |
|---|---|---|
| 使用箇所 | 文書変換、書籍のアーカイブ | データキャプチャ |
| --- | --- | --- |
| 文書解析 | 一般的な文書解析, 請求書向けの文書解析, 全文インデックス向けの文書解析 | フィールドレベル認識のための手動ブロック指定 |
| 認識 | 一般的な精度が約 96~99% の Optical Character Recognition (OCR) | あらかじめ定義されたデータ型と値の範囲に対する Optical Character Recognition (OCR)、ICR、OMR、バーコード認識。精度は約 100% |
| 検証 | コンテンツの再利用には推奨 | ほとんどの場合必須 |
| 合成 | 文書検索に使用 | 使用しない |
| 認識結果の出力 | 文書ファイル (RTF、DOCX、PDF など) | XML ファイルまたはデータベースへ出力 |
- 文書アーカイブ
- コンテンツ再利用のための文書変換
- field の検出および文書分類のためのテキスト抽出
- コンボボックス、下線付き field、ボックス、さらにはデータが field 枠内に収まらない field を含む、さまざまな境界線やフレームを持つ field からのデータ抽出
- アルファベット、辞書、正規表現、分割の種類、手書きスタイル (Windows のみ) などを設定して field の内容を定義
- field 内の空白を検出し、空白が許可される field を正確に認識。ABBYY FineReader Engine 12 では、空白を含む語句の組み合わせを含む辞書も使用可能
- 一部や線が交差するブロックを高度に処理し、ブロック境界内に完全に含まれるテキスト (単語および文字) のみを認識することで、無関係なテキストブロックの認識に費やす時間を削減
- テキストブロックのデスペックル処理。白または黒の「ごみ」のサイズを指定可能
ユーザー言語
- 手書きで記入された文書では、フォームの field に入る値は通常、都市名、国名、郵便番号、製品コード、金額など、特定の集合に属します。ICR 認識の品質を向上させるには、各 field に入力される可能性のある情報をユーザー言語で記述できます。
- 文書に製品コード、電話番号、パスポート番号などの「構造」が含まれていると、認識エラーが発生することがあります。これは、プログラムがこのような構造を文字ごとに読み取るためです。製品コードなどの認識精度を高めるには、特定の種類のデータをプログラムが正しく読み取れるようにする新しい認識言語を作成できます。
