광학 문자 인식(OCR)
- OCR 기술 — 인쇄 텍스트 인식은 다음을 포함한 211개 언어를 지원합니다.
- 유럽 언어(라틴, 키릴, 아르메니아, 그리스 문자)
- 중국어(간체 및 번체), 일본어, 한국어(CJK)
- 아랍어, 태국어, 베트남어, 히브리어, 페르시아어
- 버마어 — 기술 프리뷰 버전
- FineReader XIX — 17세기부터 20세기까지 출판된 오래된 문서, 서적, 신문을 디지털화하고 보관하기 위해 특별히 설계된 OCR 모듈입니다. 이들 중 상당수는 희귀하고 고유한 자료입니다. 도서관과 정부 기관의 역사 기록 보관소에 소장된 이러한 자료는 보존해야 할 국가 유산입니다. FineReader XIX는 1600년부터 1937년 사이에 영어, 프랑스어, 독일어, 이탈리아어, 스페인어로 출판된 텍스트를 인식하는 고유한 기능을 제공합니다. Fraktur, Schwabacher 및 대부분의 Gothic 글꼴 같은 옛 글꼴의 인식도 지원합니다.

- 56개 언어는 OCR 정확도를 크게 향상시키는 사전/형태 분석 지원을 제공합니다.
- 다국어 문서 인식 기능은 동일한 문서에서 독일어와 중국어, 영어·러시아어·한국어처럼 여러 언어를 함께 인식할 수 있습니다.
- 도트 매트릭스 문서 인식 — ABBYY FineReader Engine은 다양한 유형의 인쇄된 도트 매트릭스 텍스트를 인식합니다. 도트 매트릭스, 데이지 휠, 체인, 밴드 프린터를 비롯한 다양한 프린터에서 출력된 수천 개의 샘플과 draft 및 Near Letter Quality(NLQ) 인쇄 모드를 사용해 학습되었습니다.
- 타자 문서 인식.
- OCR-A, OCR-B, MICR(E13B), CMC7 글꼴 인식.
지능형 문자 인식(ICR)
- ICR 기술 — 126개 이상의 언어로 손글씨 문자 인식을 지원합니다.
- 39개 언어(라틴, 그리스, 키릴 문자를 사용하는 언어)에 대해 형태소 분석/사전 지원을 제공합니다.
- 아랍권 국가에서 사용되는 인도 숫자에 대한 ICR.
- 전 세계 여러 국가와 지역에서 사용되는 30가지 지역별 손글씨 스타일 지원(지원되는 ICR 언어 기준).
- field 및 프레임 내 손글씨 문자 인식 — 밑줄 field, 박스, 빗살형 field 등.
- 다국어 ICR. ABBYY ICR 기술의 주요 장점 중 하나는 field에 대문자와 소문자가 함께 포함되어 있더라도, 숫자와 하나 이상의 언어 문자가 결합된 경우를 포함해 숫자 인식에서 거의 동일한 높은 정확도를 제공한다는 점입니다.
광학 마크 인식(OMR)
- 사각형 프레임 안의 체크 마크
- 빈 배경에 표시된 체크 마크
- 비표준 체크 마크 유형(특수 체크 마크는 인식 전에 학습이 필요함)
광학 바코드 인식(OBR)
- 1D 및 2D 바코드 유형. ABBYY OCR SDK는 널리 사용되는 1D 및 2D 바코드 유형 인식을 지원합니다. 지원되는 바코드 유형 목록을 참조하세요.
- 빠른 바코드 추출. 이 기능을 사용하면 문서에서 어떤 각도로든 배치된 바코드를 자동으로 감지하고 인식할 수 있습니다. 1D 및 2D 바코드 모두에 적용됩니다.
인식 모드
- 정확 인식 모드
- 고속 인식 모드
- 일반 인식 모드
전체 텍스트 및 field 수준 인식
| 사양 | 전체 텍스트 인식 | field 수준 인식 |
|---|---|---|
| 사용 위치 | 문서 변환, 도서 보관 | 데이터 캡처 |
| --- | --- | --- |
| 문서 분석 | 일반 문서 분석, 송장용 문서 분석, 전체 텍스트 인덱싱용 문서 분석 | field 수준 인식을 위한 수동 블록 지정 |
| 인식 | 일반적으로 약 96~99% 정확도의 OCR | 미리 정의된 데이터 유형과 값 범위를 사용하는 OCR, ICR, OMR, 바코드 인식. 정확도는 약 100% |
| 검증 | 콘텐츠 재사용에 권장됨 | 대부분의 경우 필수 |
| 합성 | 문서 검색에 사용됨 | 사용되지 않음 |
| 인식 결과 내보내기 | 문서 파일(RTF, DOCX, PDF 등) | XML 파일 또는 데이터베이스로 내보내기 |
- 문서 보관
- 콘텐츠 재사용을 위한 문서 변환
- field 감지 및 문서 분류를 위한 텍스트 추출
- 콤보 박스, 밑줄 field, 박스, 심지어 데이터가 field 경계 안에 맞지 않는 field까지 포함하여 다양한 경계와 프레임이 있는 field에서 데이터 추출
- 알파벳, 사전, 정규식, 분할 유형, 필기 스타일(Windows 전용) 등을 설정하여 field 내용 정의
- field 내 공백 감지로 공백이 허용되는 field를 정확하게 인식합니다. ABBYY FineReader Engine 12는 또한 공백이 포함된 단어 조합이 들어 있는 사전도 사용할 수 있습니다
- 서로 교차하는 부분과 선이 있는 블록을 지능적으로 처리하여 블록 경계 안에 완전히 위치한 텍스트(단어와 문자)를 인식하고, 관련 없는 텍스트 블록 인식에 소요되는 시간을 줄입니다
- 흰색 또는 검은색 “잡음”의 크기를 지정할 수 있는 텍스트 블록 디스페클
사용자 언어
- 손으로 작성한 문서에서는 양식 field의 값이 보통 도시명, 국가명, 우편번호, 제품 코드, 금액 등과 같이 특정한 집합에 속합니다. ICR 인식 품질을 높이려면 사용자 언어를 사용해 각 field에 입력될 수 있는 정보를 정의할 수 있습니다.
- 문서에 제품 코드, 전화번호, 여권 번호 등의 “구조”가 포함되어 있으면 인식 오류가 발생할 수 있습니다. 이는 프로그램이 이러한 구조를 글자 단위로 읽기 때문에 발생합니다. 제품 코드와 같은 항목의 인식을 개선하려면 프로그램이 특정 유형의 데이터를 올바르게 읽을 수 있도록 도와주는 새 인식 언어를 만들 수 있습니다.
