- ABBYY FineReader Engine에서 제공하는 검증 알고리즘을 사용합니다. 이 알고리즘은 k-겹 교차 검증 전략을 사용합니다:
각 반복에서 TrainingData 객체에 제공된 범주화된 데이터는 무작위로 FoldsCount개의 동일한 부분으로 나뉩니다. 그런 다음 각 부분을 번갈아 검증에 사용합니다. 즉, 한 부분을 제외한 나머지 모든 부분으로 모델을 학습시키고, 제외한 마지막 부분으로 모델을 검증합니다.
이 과정은 RepeatCount회 반복됩니다. 이렇게 생성된 FoldsCount * RepeatCount개의 모델 중 가장 높은 F-측도 점수를 보인 모델이 ITrainingResult::Model 속성을 통해 반환되며, 해당 점수는 ITrainingResult::ValidationResult 속성으로 확인할 수 있습니다.
각 학습 단계에서 학습 세트의 객체 수는 <전체 객체 수> * (FoldsCount - 1) / FoldsCount와 같습니다. 이 수는 텍스트 분류기의 경우 최소 4개, 결합 분류기의 경우 최소 8개여야 합니다. 학습 샘플에 충분한 객체가 포함되어 있는지 확인하십시오. - ShouldPerformValidation을 FALSE로 설정하여 검증을 끄고 전체 학습 데이터 세트로 모델을 학습시킨 다음, 별도의 알려진 데이터 샘플에 IModel::Classify 메서드를 사용하여 사용자 측에서 모델 성능을 테스트합니다.
속성
| 이름 | 형식 | 설명 |
|---|---|---|
| AveragingMethod | AveragingMethodEnum | 범주가 3개 이상인 분류기의 정확도, 정밀도, 재현율 및 F-측도 점수 평균을 계산하는 방법입니다. 이 속성의 기본값은 AM_Macro입니다. |
| FoldsCount | int | k-겹 교차 검증 알고리즘에서 사용하는 폴드 수입니다. 이 속성의 기본값은 3입니다. |
| RepeatCount | int | 알고리즘에서 사용하는 반복 횟수입니다. 이 속성의 기본값은 1입니다. |
| ShouldPerformValidation | VARIANT_BOOL | 학습된 모델을 검증할지 여부를 지정합니다. 이 속성의 기본값은 FALSE입니다. |
객체 다이어그램
