메인 콘텐츠로 건너뛰기
ABBYY Vantage가 PDF 문서를 처리할 때는 텍스트를 어떤 방식으로 추출할지 결정해야 합니다. PDF에는 내장된 텍스트 레이어(파일에 직접 포함된 검색 가능한 텍스트)가 있을 수 있으며, 텍스트 추출을 위해 Optical Character Recognition (OCR)이 필요한 이미지 전용 파일일 수도 있습니다. PDF 처리 모드 설정을 사용하면 Vantage가 사용할 방식을 명확하게 제어할 수 있습니다. 특히 다음과 같은 경우에 유용합니다.
  • 추출 결과의 재현성과 감사 가능성이 요구되는 규제 산업에서 작업하는 경우
  • 문서 세트에 품질이 낮거나 신뢰할 수 없는 내장 텍스트 레이어가 포함된 PDF가 있어 OCR로 더 나은 결과를 얻을 수 있는 경우
  • ABBYY FlexiCapture에서 마이그레이션하면서 기존 워크플로의 처리 방식을 그대로 재현해야 하는 경우
  • 내용과 관계없이 모든 문서에 대해 일관되고 예측 가능한 처리 방식이 필요한 경우

사용 가능한 모드

모드설명사용 시기
기본 (권장)사용 가능한 경우 PDF에 포함된 텍스트 레이어를 사용하고, 필요하면 OCR을 추가로 적용합니다. 이는 Vantage의 표준 처리 방식입니다.일반적인 용도에 적합합니다. 텍스트 레이어가 있는 PDF와 이미지만 있는 PDF가 혼합된 대부분의 문서 세트에 권장됩니다.
텍스트 레이어만 사용PDF에 포함된 텍스트 레이어에서만 텍스트를 추출합니다. 텍스트 레이어가 없으면 Vantage가 자동으로 OCR로 전환합니다.품질이 높고 신뢰할 수 있는 텍스트 레이어가 있으며, 전체 OCR 없이 더 빠르게 추출하려는 경우에 사용합니다. 기존 텍스트 레이어를 기준 원본으로 사용하는 규제 환경에서 유용합니다.
OCR만 사용PDF에 포함된 텍스트 레이어를 무시하고 문서의 모든 페이지에 대해 전체 OCR을 수행합니다.PDF 텍스트 레이어의 신뢰도가 낮거나 손상된 것으로 알려진 경우, 또는 문서 구조와 관계없이 모든 문서에서 일관된 OCR 기반 추출이 필요한 경우에 사용합니다.

예시 시나리오

다음 예시는 각 모드가 가장 적합한 일반적인 상황을 보여줍니다.
공급업체 ERP 시스템에서 내보낸 원본이 디지털인 PDF 송장을 처리합니다. 포함된 텍스트 레이어는 정확하며 시스템이 생성한 것입니다. 텍스트 레이어만 사용을 사용하면 불필요한 OCR을 실행하지 않고도 빠르고 안정적으로 추출할 수 있습니다.
동일한 워크플로에서 스캔한 종이 문서와 원본이 디지털인 PDF가 혼합된 대량 문서를 처리합니다. 일부 파일에는 정확한 텍스트 레이어가 있지만, 일부 파일에는 없습니다. **기본(권장)**은 문서별 설정 없이도 두 경우를 모두 자동으로 처리합니다.
문서 세트는 스캔 중 저품질 텍스트 레이어가 포함되는 레거시 스캐닝 시스템에서 생성된 PDF로 이루어져 있습니다. 이 텍스트 레이어에는 field 추출 품질을 떨어뜨리는 인식 오류가 포함되어 있습니다. OCR만 사용은 이 레이어를 완전히 우회하고 페이지 이미지에서 직접 깨끗한 텍스트를 추출합니다.
추출 결과가 완전히 재현 가능하고 감사 추적이 가능해야 하는 규제 산업(예: 금융 서비스 또는 의료)에서 일하고 있습니다. 모드를 텍스트 레이어만 사용 또는 OCR만 사용으로 고정하면 문서가 어떤 방식으로 유입되든 항상 동일한 처리 경로를 사용하게 할 수 있습니다.

설정 위치

PDF 처리 모드 설정은 다음 위치에서 구성할 수 있습니다:
  • OCR Skill 설정 — 일반 탭의 이미지 처리 섹션
  • 프로세스 스킬 내 OCR 액티비티 설정 — 일반 탭의 이미지 처리 섹션

지원되는 Technology Core 버전

PDF Processing Mode는 Technology Core 3를 사용하는 스킬에서 지원됩니다. 이전 Technology Core 버전에서는 사용할 수 없습니다.