- Utiliser l’algorithme de validation fourni par ABBYY FineReader Engine. Il repose sur la stratégie de validation croisée k-fold :
À chaque itération, les données catégorisées fournies dans l’objet TrainingData sont réparties aléatoirement en FoldsCount parties égales. Chacune de ces parties est utilisée à tour de rôle pour la validation : un modèle est entraîné sur toutes les parties sauf celle-ci, puis évalué sur cette dernière.
Le processus est répété RepeatCount fois. Parmi les FoldsCount * RepeatCount modèles obtenus, celui qui présente le meilleur score F-mesure est retourné par la propriété ITrainingResult::Model, et ses scores sont accessibles via la propriété ITrainingResult::ValidationResult.
Le nombre d’objets dans l’ensemble d’entraînement à chaque étape sera égal à <nombre total d’objets> * (FoldsCount - 1) / FoldsCount. Notez que ce nombre doit être d’au moins 4 pour un classificateur textuel et d’au moins 8 pour un classificateur combiné. Veillez à ce que votre échantillon d’entraînement contienne suffisamment d’objets. - Désactiver la validation en définissant ShouldPerformValidation sur FALSE, entraîner le modèle sur l’intégralité du data set d’entraînement, puis tester les performances du modèle de votre côté à l’aide de la méthode IModel::Classify sur un autre échantillon de données connu.
Propriétés
| Nom | Type | Description |
|---|---|---|
| AveragingMethod | AveragingMethodEnum | Méthode de calcul des scores moyens d’exactitude, de précision, de rappel et de F-mesure pour les classificateurs comportant plus de 2 catégories. Par défaut, cette propriété est définie sur AM_Macro. |
| FoldsCount | int | Nombre de sous-ensembles utilisés dans l’algorithme de validation croisée k-fold. La valeur par défaut de cette propriété est 3. |
| RepeatCount | int | Nombre d’itérations utilisées dans l’algorithme. La valeur par défaut de cette propriété est 1. |
| ShouldPerformValidation | VARIANT_BOOL | Indique si le modèle entraîné doit être validé. Par défaut, cette propriété est définie sur FALSE. |
Diagramme d’objets
