macOS 不支持 Office 文档。
元素
| Name | Description |
|---|---|
| CRM_Auto | ABBYY FineReader Engine 会自动选择适用于处理 PDF 文件或 Office 文档的模式。如果该模式的处理结果未达到预期,或者已预先知道文档类型及其对应的复用模式,则可以手动选择模式。 |
| CRM_ContentAndPictures | ABBYY FineReader Engine 会自动为源 PDF 文件或 Office 文档每页的各个部分选择文本和图像的使用模式。这意味着处理时会同时使用源文件内容和栅格化图像。如果源文件中的文本质量良好,则使用该文本;否则,使用该部分栅格图像中的文本。 |
| CRM_ContentOnly | ABBYY FineReader Engine 会同时使用源 PDF 文件或 Office 文档中的文本和图像。<Warning> 使用源文件中的文本内容可以加快处理速度,但如果选择此模式时文件中没有文本层,则会发生错误。 </Warning> 我们建议将此模式用于包含可见文本的源文件,这些文本采用 Unicode、ASCII 或其他字符编码标准进行编码,并且字体和字号设置正确。如果源文件属于其他类型,请使用 CRM_Auto、CRM_ContentAndPictures 或 CRM_DoNotReuse。 <Warning> 以并行方式在内存中处理文档时,此模式不可用 (MultiProcessingParams::MultiProcessingMode = MPM_Parallel) 。 </Warning> |
| CRM_DoNotReuse | ABBYY FineReader Engine 会先将源 PDF 文件或 Office 文档的页面栅格化,再进行处理。源文件的内容将被忽略。 |
使用 IsPdfWithTextualContent 方法可确定文件是否包含文本层。
备注
- CRM_DoNotReuse — 始终确定 Word 模型的类型。
- CRM_Auto, CRM_ContentAndPictures — Word 模型类型的确定取决于文档内容识别的使用情况。
- CRM_ContentOnly — 从不确定 Word 模型的类型。
