跳转到主要内容
此对象提供了用于处理已识别文本中单个段落的方法和属性。 在 ABBYY FineReader Engine 对象模型中,段落是一个基本的文本单元。用户可通过此对象获取:
  • 已识别文本 (为此请使用 Text 属性)
  • 各种段落参数 (ExtendedParams、ListParams、ParagraphStyle 属性)
  • 段落中的行集合和 Words 集合 (Lines 和 Words 属性)
  • 单个字符参数 (GetCharParamsSetCharParamsGetDropCapCharParams 方法)
  • 书签 (BookmarkUserBookmark 属性)
  • 对于条码段落,无法获取段落边界的坐标 (Left、Top、Right、Bottom 属性) 。
  • ABBYY FineReader Engine 中的书签可以是内部 (技术) 实体,也可以是名称使用关键字 (前缀) 编码的自定义实体。这些关键字及其词汇可能因所用技术版本不同而有所变化。

属性

,read-only

返回 Engine 对象。

, read-only

以 Unicode 字符串的形式提供对段落已识别文本的访问。通过此属性可获取已识别文本。该字符串可能包含以下特殊字符:

  • 0x2028 — 换行符
  • L’\n’ — 段落分隔符
  • 0xFFFC — 对象替换字符 (表示文本中嵌入的图片)
  • 0x0009 — 制表符。
  • 0x005E — 扬抑符 (^) ,ABBYY FineReader Engine 用其替代无法识别的字符
  • 0x00AC — 软连字符
如果段落的书写方向为从右到左 (例如希伯来语) ,则段落文本是一个字符串,其中的字符按阅读顺序排列。例如,希伯来语文本 Hebrew 将以字符串 ”Hebrew_backtofront” 的形式返回。

请注意,已识别文本与原始内容可能存在细微差异。某些输入符号可能会被替换为特殊字符。例如,”…” 符号可能会被替换为制表符。因此,已识别文本中的符号数量可能与原始内容有所不同。如需访问未经符号替换的原始单词,请使用.

,read-only

提供对段落单词集合的访问。

与 Text 属性不同,如果段落的书写方向为从右到左 (例如希伯来语) ,则段落中的单词是一个字符串,其中的字符从左到右排列。例如,希伯来语单词 Hebrew 将以字符串 ”Hebrew” 的形式返回。

,read-only

提供对段落行集合的访问。该属性返回一个常量对象。

, read-only

返回段落中书签的数量。

, read-only

通过书签在段落内部书签集合中的索引,提供对任意类型 (技术型或用户型) 书签的访问。通过此属性访问的书签,其名称中包含前缀。

,read-only

返回对 Hyperlink 对象的引用,该对象 描述该位置的超链接。如果没有超链接, 则此属性设置为 0。

,read-only

提供对段落中所有制表位的访问。

,只读

通过索引访问段落内部书签集合中的用户书签。通过此属性访问的书签名称中不包含前缀。

,只读

返回段落中用户书签的数量。

,只读

此属性包含段落中的字符数,与通过 Text 属性获取的字符串中的字符数相同。

段落末尾的段落分隔符包含在 Text 属性中,并计入 Length 属性。

提供对 ParagraphParams 对象所公开的 Paragraph 对象参数的访问。

,read-only

提供对段落所属列表参数的访问。如果段落不在列表中,则 IListParams::List 属性返回 NULL。

提供对段落样式参数的访问。这些参数仅在文档合成后才可访问。

该属性返回一个常量对象。

提供对段落首字下沉字符数的访问。段落的前 DropCapCharsCount 个符号被视为首字下沉。编辑段落时此属性不会更新,因此其值可能大于段落的实际长度。

, read-only

存储该位置字符所属列的编号。

, read-only

存储段落底部边界在图像中的坐标。

此属性不适用于条码的段落。

,只读

存储段落左边框在图像中的坐标。

此属性不适用于条码段落。

,只读

存储段落右边框在图像中的坐标。

此属性不适用于条码段落。

,只读

存储段落上边框在图像中的坐标。

此属性不适用于条码段落。

方法

NameDescription
DeleteBookmark从段落中删除指定名称、任意类型 (技术或用户) 的书签。
GetBookmarkRange根据书签名称,确定构成该书签的字符串的起始字符索引和长度。
GetCharParams提供对单个字符参数的访问。
GetDropCapCharParams提供对段落首字下沉参数的访问。
GetHyperlinkRange分析单个超链接字符,并确定构成该超链接的字符串的起始字符索引和长度。
GetWordRecognitionVariants返回段落文本中当前位置单词的识别变体集合。
Insert将字符串插入段落文本中。
InsertParagraphBreak将段落拆分为两个部分。
InsertTab在选定的文本位置插入制表位。
InsertText将指定文本插入段落文本中。
NextGroup查找段落中下一个字符,其选定参数与搜索起始字符的参数不同。此方法可用于查找段落中所有粗体或斜体单词、所有识别不确定的字符等。
Range返回段落文本中的子字符串。
Remove从段落文本中删除指定范围的内容。
SetBookmark为段落中的字符串设置用户书签。
SetCharParams为一组字符设置参数。
SetHyperlink为段落中的字符串设置超链接。
段落 对象图

输出参数

此对象是以下方法的输出参数:

输入参数

该对象是 Paragraphs 对象的 IndexOf 方法的输入参数。

示例

FREngine.IBlock block;
int suspiciousCharsCount = 0;
// 遍历文本块中的各段落,并计算可疑字符的数量
FREngine.ITextBlock textBlock = block.GetAsTextBlock();
int paragraphsCount = textBlock.Text.Paragraphs.Count;
for (int iPar = 0; iPar < paragraphsCount; iPar++)
{
 FREngine.IParagraph par = textBlock.Text.Paragraphs[iPar];
 string text = par.Text;
 FREngine.ICharParams charParams = engine.CreateCharParams();
 for (int iChar = 0; iChar < text.Length; iChar++)
 {
  par.GetCharParams(iChar, charParams);
  if (charParams.IsSuspicious)
  {
   suspiciousCharsCount++;
  }
 }
}
以下代码示例中使用了该对象:

另请参阅

Paragraphs 处理文本 处理属性