- 0x2028 — 改行記号
- 0x2029 — 段落区切り記号
- 0xFFFC — オブジェクト置換文字 (テキスト内に埋め込まれた画像を示します)
- 0x0009 — タブ
- 0x005E — サーカムフレックスアクセント (^) 。ABBYY FineReader Engine では、認識できなかった文字の代用として使用されます
- 0x00AC — ソフトハイフン
レイアウト内の認識されたテキスト
- テキストブロックの場合
- テーブルブロックの場合
- ITableBlock::Cells プロパティを使用して、テーブルセルのコレクションを取得します。
- 必要なセルを選択します。TableCells オブジェクトのメソッドを使用します。
- セルのブロック オブジェクト (ITableCell::Block プロパティ) を取得します。
- そのブロックのタイプが BT_Text であること (IBlock::Type プロパティ) を確認し、IBlock::GetAsTextBlock メソッドを使用して TextBlock オブジェクトを取得します。
- ITextBlock::Text プロパティを使用します。
- バーコードブロックの場合
Text と段落
string です。
また、段落全体に固有の属性 (配置やインデントに関する情報など) を含む ParagraphParams オブジェクトもあります。このオブジェクトには、IParagraph::ExtendedParams プロパティからアクセスできます。
IParagraph::Lines プロパティを使用すると、ParagraphLines オブジェクトで表される段落行のコレクションにアクセスできます。さらに、このオブジェクトは ParagraphLine オブジェクトのコレクションでもあります。後者には、単一の段落行の幾何学的位置に関する情報が含まれており、テキストの行分割を表します。
IParagraph::Words プロパティを使用すると、Words オブジェクトで表される段落内の単語のコレクションにアクセスできます。このオブジェクトは Word オブジェクトのコレクションです。Word オブジェクトを使用すると、段落内の単一の単語にアクセスできます。
