メインコンテンツへスキップ

文書の比較

新しい「Compare Documents」モジュール文書の整合性をすばやく確認するために、ABBYY FineReader Engine の新しい「Compare Documents」モジュールでは、同一文書の2つのバージョン間にある内容の違いを検出できます。
バイリンガル文書の比較「Compare Documents」モジュールの新しいオプションでは、このような文書がバイリンガルであり、複雑なレイアウトを持つことを自動的に検出し、各列 (つまり各言語版) を個別に比較できます。

Linux および Windows での Office 形式の入力

Office 文書の処理

FineReader Engine は、幅広い画像形式に加えて、Office 文書形式のいずれかで作成された入力文書も処理できるようになりました。

  • テキスト文書: .doc, .docx, .rtf, .htm / .html, .txt, .odt
  • 表計算: .xls, .xlsx, .ods
  • プレゼンテーション: .ppt, .pptx, .odp

メモリからの Office 文書の読み込み

Microsoft Office および Apache OpenOffice のファイルをメモリから直接開く新しいメソッドにより、文書のインポート処理を高速化でき、文書処理全体も高速になります。

MRZキャプチャ

機械読取領域 (MRZ) からのデータ抽出この新機能により、ID文書の機械読取領域 (MRZ) からデータを自動抽出でき、顧客のオンボーディングや本人確認プロセスにおける個人情報の入力と検証を迅速化できます。

日本語Optical Character Recognition (OCR)の改善

業界最高水準の認識精度ABBYY Fine Reader Engineの新バージョンにより、日本語Optical Character Recognition (OCR)は大幅に向上し、認識精度は多くのソリューションではこれまで実現できなかった新たなレベルに達しました。

改良されたアラビア語Optical Character Recognition (OCR)

低品質画像に対するアラビア語のエンドツーエンド認識一般的な技術では誤りが多く、信頼度の低い結果しか得られない低品質画像向けのアラビア語Optical Character Recognition (OCR)。

韓国語Optical Character Recognition (OCR)の改良

韓国語向けディープラーニング言語モデル韓国語向けに学習されたモデルが、認識候補の中から最適な単語認識結果を選択し、認識コンテキスト (前後の単語) に基づいて新たな候補を生成することもあります。
ニューラルネットワークベースの新しいOptical Character Recognition (OCR)技術

Optical Character Recognition (OCR)技術の改良

Optical Character Recognition (OCR)技術にニューラルネットワークの手法を導入することで、ABBYY FineReader Engine では手書きおよび活字体のラテン文字の処理が強化されました。

  • 単語候補を一貫して高精度に選択するための言語モデル
  • 多言語文書を処理するためのラテン文字向けエンドツーエンド認識

機械学習によるバーコード認識技術

このニューラルネットワークアーキテクチャでは、バーコードのおおよその領域を検出し、それを分類して、最も可能性の高いバーコード種類を持つ領域として出力する新しいバーコード認識モデルが導入されています。

新しい認識モード

新しい Accurate モードでは、認識速度が適度に低下する代わりに、出力文書で最高品質の結果を得ることができます。このモードは、低品質の画像や写真から生成された請求書、契約書、領収書、IDカードに最適です。

印影や署名付近のテキストに対するOptical Character Recognition (OCR)品質の向上

印影や署名付近のテキストの検出契約書に印影や署名が含まれる場合、それらの付近にあるテキストを分離して認識することで、処理後の文書品質が向上します。

新しいライセンス オプション

ネットワーク版およびスタンドアロン版でのオンライン ライセンスの利用FineReader Engine 12 の Developer’s Help に、SDK のさまざまなライセンス形態に関する情報が追加され、各ライセンス オプションの種類をわかりやすい比較表で説明しています。
猶予期間の利用この新しいオプションにより、ABBYY FineReader Engine ライセンスは有効期限後もしばらくの間使用できるため、ライセンスの有効期間を延長できます。

Linux版およびmacOS版でのICR/OMR技術

手書き文字およびチェックマークの認識ABBYY FineReader Engine 12では、手書き文字、手書きの活字体、およびさまざまな種類のチェックマークを認識できます。ICRおよびOMR技術を実装することで、手書き文書からデータを抽出し、新たなデータ抽出ソリューションを開発できます。
クラウド環境でEngineを実行する機能
新しいデプロイオプション新しいライセンス形態により、仮想環境およびクラウド環境へのデプロイが可能になり、より幅広いソリューションを提供できます。ライセンスの仕組みではインターネット接続が必要で、プロキシサーバーにも対応しています。 <Note> LinuxおよびWindows向けのFineReader Engineに適用されます。 </Note>
Windows向けFREの.NET Coreラッパー
新しい開発フレームワークコンテナーやその他のネイティブ環境を活用した一般的なソフトウェアの開発・デプロイ手法に対応し、開発チームの効率を高めるため、ABBYY FineReader Engineではビルド済みの.NET Core 6ラッパーを提供しています。
ABBYY FineReader Engineの新しいライブラリ
NeoMLライブラリの活用NeoMLは、機械学習モデルの構築、トレーニング、およびデプロイを可能にするオープンソースのエンドツーエンド機械学習フレームワークです。このフレームワークは、画像の前処理、分類、文書レイアウト分析、OCR、構造化文書および非構造化文書からのデータ抽出など、コンピュータービジョンや自然言語処理のタスクでエンジニアに利用されています。
PDF処理用に組み込まれたPDFiumPDFiumは、PDF標準に準拠したクロスプラットフォームのネイティブライブラリで、処理、解析、レンダリング、出力の取得など、PDFに関連するあらゆる操作に対応します。
強化された文書分類
NLPおよび機械学習を使用した文書分類ABBYY FineReader Engine 12では、入力文書を自動的に異なるカテゴリに分類できます。機械学習、OCR、および自然言語処理技術を使用して、画像ベースおよびテキストベースの分類器を代表的な文書でトレーニングします。得られた情報は、その後の分類処理で使用されます。
テキストベースの分類器: トレーニングデータの高度な保護テキストベースの分類器をトレーニングして最適化するには、各文書カテゴリを表す文書をインポートする必要があります。これらの文書に含まれるデータを保護するため、実装されたハッシュアルゴリズムにより、サンプル文書から情報が復元される可能性を防止しています。
強化された分類Demo SampleABBYY FineReader Engineは、PDF、スキャンまたは撮影された文書画像に加え、Office形式の文書も処理できます。この機能を分類プロセスに反映するため、提供される分類用の事前コンパイル済みDemo Sampleが強化され、PDFおよび画像形式に加えてOffice文書もインポートできるようになりました。

コマンドラインインターフェイス (CLI) 用のコードサンプル

すぐに使えるコードサンプルこのコードサンプルを使用すると、開発者は ABBYY FineReader Engine ライブラリを効率的に活用し、コマンドラインベースのアプリケーションに文書処理機能を統合できます。
PDFメタデータ抽出機能の実装
ボーンデジタルPDFファイルの処理AuxInfo は、PDF ファイルのメタデータ情報を提供する PDFium の補助オブジェクトです。ABBYY R&D PDFTools チームは、PDFium と連携する独自の AuxInfo オブジェクトを実装しました。

改善されたPDF処理

「混在した」
コンテンツを含むPDFの改善

ABBYY FineReader Engine では、画像のみのページとデジタル生成されたページが混在するPDF文書を処理するための新機能を提供します。

  • PDF処理の品質向上と高速化を実現する適応認識
  • 出力形式で良好なテキストレイヤーを保持するためのテキストレイヤー品質分類器
  • PDF内の電子署名の有無の表示
  • コンテンツが混在する文書を処理するための新しいコンテンツ再利用モード

PDF内の追加コンテンツの使用

PDFコンテンツをより柔軟に構成できるようにするため、ABBYY FineReader Engine では次の新しいオプションを提供します。

  • PDF Portfolioを開いてその内容を処理
  • 出力PDFにカスタム画像を追加し、その配置を管理
追加の言語サポート
ペルシア語Optical Character Recognition (OCR)ABBYY FineReader Engine では、ペルシア語認識オプションが更新・改善され、イラン、アフガニスタン、および中東の多くの国の文書をより効果的に処理できるようになりました。
ジョージア語Optical Character Recognition (OCR)新しいOptical Character Recognition (OCR)言語としてジョージア語が追加されました。
単純な数式に対するOptical Character Recognition (OCR)単純な数式の文字を抽出することで、本文中に単純な1行の数式を含む科学文書をより適切に認識できるようになります。
ビルマ語Optical Character Recognition (OCR)のテクニカルプレビュー今後の機能を示すため、ビルマ語Optical Character Recognition (OCR)がテクニカルプレビューとして追加されました。
アラビア語および日本語の日付取得のための特別言語FineReader Engine for Windows では、field認識用の特別言語がサポートされています。新しいバージョンでは、アラビア語と日本語の日付認識が改善されています。
ベンガル語Optical Character Recognition (OCR)のテクニカルプレビュー将来的な機能を示すため、ベンガル語Optical Character Recognition (OCR)がテクニカルプレビューとして追加されました。

文書レイアウト再現の向上

表再構成の改善ABBYY FineReader Engine 12 では、文書から抽出した表の書式をこれまで以上に適切に保持できます。
均等段組みの検出と再現文書に均等に配置された段組みのテキスト (契約書、学術論文、記事など) が含まれている場合、元の構造を保持できるようになり、文書処理が簡単になります。
新しい「単一列」文書モデル新しいアルゴリズムの主な改善点は、表やグラフの検出と解析です。
表構造解析の強化文書変換メカニズムの改善により、ABBYY FineReader Engine は「Accounting」形式の数値列を含む表を検出できるようになりました。

内部プロセスの最適化による処理の高速化

ILayout オブジェクト反復処理の新しい方式メインプロセス外でドキュメントを処理した後に取得される ILayout オブジェクトの反復処理を高速化する新しい方式です。 <Note> FineReader Engine for Linux および Windows に適用されます。 </Note>

Windows版FREの新しいスキャンオプション

強化されたスキャン機能

ABBYY FineReader Engine 12 には、デバイスベースのスキャン機能が多数搭載されています。

  • 文書内の空白ページの自動削除
  • ページの自動トリミング
  • 自動傾き補正
  • カラーモードの自動判定
オンラインドキュメント
オンラインで利用できるドキュメント組み込みドキュメントに加えて、ABBYY FineReader Engine の機能や特長について必要なときに必要な情報を提供するオンライン版も利用できるようになりました。

Windows 用 FRE における最新の .NET Framework バージョン

.Net COM Interop ラッパーのサポート

配布パッケージに、次の .Net Framework バージョン用の .Net COM Interop ラッパーが追加されました。

  • 3.5 SP1
  • 4.6
  • 4.7
  • 4.8
新しいエクスポート形式
JSONJSON (JavaScript Object Notation) は、属性と値のペアおよび配列型データで構成されるデータオブジェクトを伝送するための、オープンスタンダードの言語非依存ファイル形式です。FineReader Engine で、Optical Character Recognition (OCR) の結果を JSON 形式でエクスポートできるようになりました。
新しい ALTO バージョンALTO (Analyzed Layout and Text Object) は、書籍や新聞のページなどの物理的なテキストリソースのレイアウトと内容を記述する技術メタデータを定義する XML スキーマです。このスキーマの最新バージョン (4.0、4.1、4.2) は、FineReader Engine 12 でサポートされています。
PDF/A-2b および PDF/A-3bPDF/A は、電子文書のアーカイブおよび長期保存向けに特化した、Portable Document Format (PDF) の ISO 標準版です。FineReader Engine は現在、PDF/A のすべての適合レベルをサポートしています。

全機能