PDF変換 - ABBYY Documentation

PDF形式は、データ保存を目的として電子アーカイブでよく使用されます。画像とテキストの両方を保持できる汎用性の高さから、広く採用されています。 ABBYYが開発した技術により、認識されたテキストをPDFおよびPDF/A形式で保存できます。アーカイブ化の主な目的の1つは、データ品質を損なうことなく、できるだけファイルサイズを小さくすることです。 PDFおよびPDF/Aファイルのサイズを最小限に抑えるために、MRC (Mixed Raster Content) と呼ばれる特殊な圧縮技術が使用されます。

Linux および Windows での PDF 入力

高度な PDF 処理

ABBYY FineReader Engine は、入力 PDF ファイル内の次のような内部情報を解析します。

注釈
メタデータ
テキストオブジェクト
フォント辞書
コンテンツストリーム

SDK は、効率的かつ正確にテキストを選択することで、PDF 変換のパフォーマンスと処理速度を向上させます。PDF ファイルにテキストが埋め込まれている場合、OCR エンジンはテキストレイヤーの整合性を確認し、テキストを抽出するか、ブロック単位で OCR を適用するかを判断します。

PDF 内部情報の取得

内部 PDF リンク、ハイパーリンクのほか、件名、作成者、title、キーワードなどのドキュメントプロパティを抽出します。

入力 PDF ドキュメントに設定されている制限は、ドキュメントのインポートおよび処理に影響します。たとえば、テキストのコピーが許可されていない場合、その PDF ドキュメントは処理されません。処理対象の PDF ファイルがコピー禁止で保護されていないことを確認してください。

PDF出力

PDFのセキュリティおよび暗号化のサポート	ABBYY FineReader Engine 12 は、さまざまなPDF セキュリティ設定をサポートしており、高度なセキュリティが求められる政府機関やその他の組織での活用範囲を広げます。ドキュメントへの不正アクセスを防止するための「Open File」パスワード設定。権限パスワードを設定することで、印刷、編集、ファイル内容の抽出などの特定の操作を制限。最新の暗号化規格をサポート。
Tagged PDF形式での出力	Tagged PDF は、さまざまなページ幅や画面幅に合わせて「リフロー」できます。携帯端末 (PDA) や、視覚障害のあるユーザーが一般的に使用するスクリーンリーダーでの利用に適しています。
ページサイズ	PDF 変換時に、出力ファイルのすべてのページのサイズを設定できます。
メタデータのエクスポート	ABBYY FineReader Engine 12 では、メタデータ (ブックマーク、ハイパーリンク、相互参照など) をエクスポートできます。
PDF/A形式への変換	ページ指向文書の長期保存の標準として推奨される PDF/A 形式に変換できます。 ABBYY の技術により、PDF/A-1a、PDF/A-1b、PDF/A-2a、PDF/A-2b、PDF/A-2u、PDF/A-3a、PDF/A-3b、PDF/A-3u など、準拠レベルの異なる PDF/A 形式でドキュメントを保存できます。 PDF/A-1a 形式には、次の特徴があります。ドキュメントの書式、論理構造、通常の外観を最も適切に保持できるほか、サイズの異なる表示装置でもドキュメントの外観を維持できます (これを実現するため、ドキュメントの内容は特定の方法で構成されます) 。 PDF/A-1b 形式は、ドキュメントの外観のみを再現するために使用されます。 PDF/A-2a、PDF/A-2b、PDF/A-2u 形式は、JPEG 2000 画像圧縮、透過、およびレイヤーをサポートします。違いは、PDF/A-2u ではすべてのテキストに Unicode マッピングがあることです。 PDF/A-3a、PDF/A-3b、PDF/A-3u 形式は、任意の形式のドキュメント (Excel、Word、HTML、CAD、XML など) を PDF ドキュメントに添付できます。
PDF/UA形式への変換	ABBYY FineReader Engine 12 は、PDF/UA 標準に準拠した PDF へのエクスポートをサポートしています。PDF/UA 形式は、Tagged PDF と支援技術に対応しています。
CJK から PDF へのエクスポート	中国語 (簡体字と繁体字の両方) 、日本語、韓国語のドキュメントを PDF 形式に変換できます。

PDF (PDF/A) MRC圧縮

PDF および PDF/A ファイルのサイズを最小限に抑えるために、MRC (Mixed Raster Content) と呼ばれる特殊な圧縮技術が使用されます。

文書画像ファイルは、背景部分が大きな割合を占めるため、通常は非常にサイズが大きくなります。背景だけでファイルサイズの最大 90% を占めることもあります。しかし、変換後の文書では、その背景が不要な場合もあります。重要なのはテキストと画像です。 MRC 圧縮技術では、カラーの背景を検出して削除するか、高い圧縮率で圧縮できます。これにより、白い背景にテキストと画像だけが残り、ファイルサイズを小さくできます。画像オブジェクト (図、グラフ、ロゴ、写真、図面、スタンプ、署名など) もわずかに圧縮されますが、品質が低下しない範囲に抑えられます。 MRC 技術では、文書内の類似した文字の輪郭を分析し、平均的な文字テンプレートを作成して、個々の文字の代わりに使用します。これにより、文字の欠陥の一部が補正され、文字の輪郭がより正確になるため、可読性が向上します。その結果、サイズが小さく、しかも以前より見栄えのよい画像が得られます。変換後の文書は、目立たない淡い背景に、鮮明なテキストと画像を備えたものになります。この文書の「再構成」は、照明不良、ピンぼけ写真、不適切なスキャン/撮影パラメーター、暗い非塗工紙、文書の劣化などが原因で画質の低い画像を扱わなければならない場合に役立ちます。これらの要因によって、画像には暗い背景や余分なテクスチャが生じます。テキストはぼやけて見え、読みにくくなります。 MRC 技術を使用すると、文書の見栄えを改善し、ファイルサイズを JPEG の最大 8～10 分の 1 にまで小さくできます。

シンプルでわかりやすいPDF変換

ABBYY FineReader Engine には、開発者が用途に応じて最適なPDF変換モードを選択できるようにする専用ツールが用意されています。

PDF書き出しシナリオ	説明
MaxQuality	生成されるファイルの品質が最高になるように、PDF (PDF/A) 書き出しを最適化します。
Balanced	PDF (PDF/A) 書き出しでは、生成されるファイルの品質、サイズ、処理時間のバランスを取ります。
MinSize	生成されるファイルのサイズが最小になるように、PDF (PDF/A) 書き出しを最適化します。
MaxSpeed	処理速度が最大になるように、PDF (PDF/A) 書き出しを最適化します。

​Linux および Windows での PDF 入力

​PDF出力

​PDF (PDF/A) MRC圧縮

​シンプルでわかりやすいPDF変換

​関連項目

Linux および Windows での PDF 入力

PDF出力

PDF (PDF/A) MRC圧縮

シンプルでわかりやすいPDF変換

関連項目