이 준비 과정은 페이지에서 어떤 field를 인식할지, 그리고 무엇을 원래 형태로 유지할지를 지정하는 데 매우 중요합니다.또한 인식할 field를 수동으로 선택하는 기능도 있습니다. 이 경우 field의 좌표와 그 안에 포함된 데이터 유형을 설정해야 합니다. 이는 주로 데이터 캡처를 위한 필드 수준 인식 시나리오에서 사용됩니다.ABBYY FineReader Engine 12는 3가지 자동 문서 분석 방식과 1가지 수동 문서 분석 방식을 제공합니다.
이 기본 문서 분석 유형은 텍스트 블록, 그림, 표, 바코드, 구분선 등 모든 객체를 찾습니다. 이 분석 결과는 콘텐츠 재사용 시나리오에서 문서 구조 및 Layout을 추출하는 데 사용됩니다. 모든 그림과 도표는 내부 텍스트를 인식하지 않은 상태로 원본 형태 그대로 유지됩니다.
이 엔진은 송장, 지급 지시서, 청구서, 화물 운송장, 명함, 계약서, 의료비 청구서, 이력서 등과 같은 반정형 문서를 변환하기 위한 전처리 엔진입니다. 도장, 그림, 로고 또는 작은 글자 영역 안에 있는 정보까지 포함해 이러한 문서의 모든 텍스트와 문자, 숫자를 정확하게 찾아내도록 설계되었습니다.표준 전체 페이지 문서 분석과 달리, 이 엔진은 문서에 인쇄된 모든 정보를 텍스트로 간주합니다. 또한 중요한 텍스트 정보가 그래픽 요소로 잘못 식별되지 않도록 하고, 단어나 숫자 값이 여러 문자로 분리되지 않도록 합니다. 그 결과, 텍스트 좌표를 포함한 최대한의 정보를 후속 처리 단계에서 다른 시스템이 분석, field별 처리 및 구문 분석에 활용할 수 있습니다.