메인 콘텐츠로 건너뛰기

기본 문서 분석 기능

문서 분석은 페이지에서 다음 객체를 자동으로 감지하는 기능 집합입니다.
  • 텍스트 블록
  • 그림
  • 표 및 표 셀
  • 바코드
  • 구분선
또한 문서 분석은 OCR을 위해 이미지를 준비하는 몇 가지 특수 기능도 제공합니다.
  • 페이지 방향 감지 처리 — 90도, 180도, 270도
  • 마주 보는 두 페이지 분할
  • 표 셀 내 세로 텍스트 감지 처리
  • 페이지의 잡음 블록 감지 및 표시
이 준비 과정은 페이지에서 어떤 field를 인식할지, 그리고 무엇을 원래 형태로 유지할지를 지정하는 데 매우 중요합니다. 또한 인식할 field를 수동으로 선택하는 기능도 있습니다. 이 경우 field의 좌표와 그 안에 포함된 데이터 유형을 설정해야 합니다. 이는 주로 데이터 캡처를 위한 필드 수준 인식 시나리오에서 사용됩니다. ABBYY FineReader Engine 12는 3가지 자동 문서 분석 방식과 1가지 수동 문서 분석 방식을 제공합니다.

일반 문서 분석

이 기본 문서 분석 유형은 텍스트 블록, 그림, 표, 바코드, 구분선 등 모든 객체를 찾습니다. 이 분석 결과는 콘텐츠 재사용 시나리오에서 문서 구조 및 Layout을 추출하는 데 사용됩니다. 모든 그림과 도표는 내부 텍스트를 인식하지 않은 상태로 원본 형태 그대로 유지됩니다.

송장 문서 분석

이 엔진은 송장, 지급 지시서, 청구서, 화물 운송장, 명함, 계약서, 의료비 청구서, 이력서 등과 같은 반정형 문서를 변환하기 위한 전처리 엔진입니다. 도장, 그림, 로고 또는 작은 글자 영역 안에 있는 정보까지 포함해 이러한 문서의 모든 텍스트와 문자, 숫자를 정확하게 찾아내도록 설계되었습니다. 표준 전체 페이지 문서 분석과 달리, 이 엔진은 문서에 인쇄된 모든 정보를 텍스트로 간주합니다. 또한 중요한 텍스트 정보가 그래픽 요소로 잘못 식별되지 않도록 하고, 단어나 숫자 값이 여러 문자로 분리되지 않도록 합니다. 그 결과, 텍스트 좌표를 포함한 최대한의 정보를 후속 처리 단계에서 다른 시스템이 분석, field별 처리 및 구문 분석에 활용할 수 있습니다.

풀텍스트 인덱싱을 위한 문서 분석

그림, 차트, 다이어그램에 포함된 텍스트를 비롯해 문서 내의 모든 텍스트를 자동으로 감지하고 인식합니다. 개발자는 이 문서 분석 모드를 사용해 문서 색인 구축(DMS, CMS, 아카이빙 시스템 등)에 필요한 포괄적인 풀텍스트 정보를 문서에서 추출할 수 있습니다. intro_KeyFeatures_DocumentAnalysis

field 수준 인식을 위한 수동 블록 지정

이 경우 인식 field가 사용자 또는 애플리케이션에 의해 직접 정의되므로 별도의 분석이 필요하지 않습니다. Recognizer는 field의 좌표와 텍스트 유형을 받아 지정된 영역에서 OCR을 수행합니다.

참고 항목

주요 기능