- Use o algoritmo de validação fornecido pelo ABBYY FineReader Engine. Ele usa a estratégia de validação cruzada k-fold:
Em cada iteração, os dados categorizados fornecidos no objeto TrainingData são divididos aleatoriamente em FoldsCount partes iguais. Cada uma dessas partes, por sua vez, é usada para validação: um modelo é treinado com todas as partes, exceto essa, e depois testado na parte restante.
O processo é repetido RepeatCount vezes. Dos FoldsCount * RepeatCount modelos resultantes, o que apresentar a melhor pontuação de medida F será retornado pela propriedade ITrainingResult::Model, e suas pontuações poderão ser obtidas por meio da propriedade ITrainingResult::ValidationResult.
O número de objetos no conjunto de treinamento em cada etapa do treinamento será igual a <número total de objetos> * (FoldsCount - 1) / FoldsCount. Observe que esse número deve ser de pelo menos 4 para o classificador de texto e de pelo menos 8 para o classificador combinado. Certifique-se de que sua amostra de treinamento contenha objetos suficientes. - Desative a validação definindo ShouldPerformValidation como FALSE, treine o modelo com todo o conjunto de dados de treinamento e, em seguida, teste o desempenho do modelo por conta própria, usando o método IModel::Classify em outra amostra de dados conhecida.
Properties
| Nome | Tipo | Descrição |
|---|---|---|
| AveragingMethod | AveragingMethodEnum | O método para calcular as pontuações médias de acurácia, precisão, recall e F-measure para classificadores com mais de 2 categorias. Por padrão, esta propriedade é AM_Macro. |
| FoldsCount | int | O número de folds usados no algoritmo de validação cruzada k-fold. O valor padrão desta propriedade é 3. |
| RepeatCount | int | O número de iterações usado no algoritmo. O valor padrão desta propriedade é 1. |
| ShouldPerformValidation | VARIANT_BOOL | Especifica se o modelo treinado deve ser validado. Por padrão, esta propriedade é FALSE. |
Diagrama de objetos
