跳转到主要内容
SourceContentReuseModeEnum 枚举常量用于描述复用源 PDF 文件和 Office 文档内容的可用模式。
macOS 不支持 Office 文档。
typedef enum {
 CRM_Auto,
 CRM_DoNotReuse,
 CRM_ContentOnly,
 CRM_ContentAndPictures
} SourceContentReuseModeEnum;

元素

NameDescription
CRM_AutoABBYY FineReader Engine 会自动选择适用于处理 PDF 文件或 Office 文档的模式。如果该模式的处理结果未达到预期,或者已预先知道文档类型及其对应的复用模式,则可以手动选择模式。
CRM_ContentAndPicturesABBYY FineReader Engine 会自动为源 PDF 文件或 Office 文档每页的各个部分选择文本和图像的使用模式。这意味着处理时会同时使用源文件内容和栅格化图像。如果源文件中的文本质量良好,则使用该文本;否则,使用该部分栅格图像中的文本。
CRM_ContentOnlyABBYY FineReader Engine 会同时使用源 PDF 文件或 Office 文档中的文本和图像。<Warning> 使用源文件中的文本内容可以加快处理速度,但如果选择此模式时文件中没有文本层,则会发生错误。 </Warning> 我们建议将此模式用于包含可见文本的源文件,这些文本采用 Unicode、ASCII 或其他字符编码标准进行编码,并且字体和字号设置正确。如果源文件属于其他类型,请使用 CRM_Auto、CRM_ContentAndPictures 或 CRM_DoNotReuse。 <Warning> 以并行方式在内存中处理文档时,此模式不可用 (MultiProcessingParams::MultiProcessingMode = MPM_Parallel) 。 </Warning>
CRM_DoNotReuseABBYY FineReader Engine 会先将源 PDF 文件或 Office 文档的页面栅格化,再进行处理。源文件的内容将被忽略。
使用 IsPdfWithTextualContent 方法可确定文件是否包含文本层。

备注

文档内容的识别与确定 Word 模型类型的过程同时进行 (参见 IWord::ModelType) 。此过程取决于所选的内容重用模式:
  • CRM_DoNotReuse — 始终确定 Word 模型的类型。
  • CRM_Auto, CRM_ContentAndPictures — Word 模型类型的确定取决于文档内容识别的使用情况。
  • CRM_ContentOnly — 从不确定 Word 模型的类型。

用于

IObjectsExtractionParams::SourceContentReuseMode