Fonctionnement de l’Online learning
- De nouveaux documents sont collectés et placés soit dans l’ensemble d’apprentissage, soit dans l’ensemble de test.
- Une session d’apprentissage est lancée à partir de l’ensemble d’apprentissage.
- La compétence est testée.
Étape 1. Mode de collecte des documents
- Online learning commencera à collecter des documents dès qu’il recevra le premier document corrigé par un opérateur de relecture manuelle.
- Pour une Compétence de document, il s’agira du premier document pour lequel la région d’au moins un champ a été corrigée.
- Pour un Skill de classification, il s’agira du premier document dont le type a été modifié.
- Après l’obtention du premier document, les documents suivants seront collectés :
- Tous les documents ayant fait l’objet d’une relecture manuelle.
- Certains documents qui n’ont pas été soumis à une relecture manuelle (leur part ne dépassera pas 33 % de l’ensemble des documents de l’ensemble d’entraînement et de l’ensemble de test réunis).
- À mesure que de nouveaux documents sont collectés, ils seront placés soit dans l’ensemble d’entraînement, soit dans l’ensemble de test.
- Le nombre maximal de documents dans l’ensemble d’entraînement est de 10 000. Le nombre maximal de documents dans l’ensemble de test est de 1 000.
- Les documents seront placés uniquement dans l’ensemble d’entraînement jusqu’à ce que le nombre de documents de cet ensemble atteigne 30. Une fois ce nombre atteint, les documents seront placés soit dans l’ensemble d’entraînement, soit dans l’ensemble de test.
- Tant que les deux ensembles ne sont pas pleins, chaque nouveau document a 80 % de chances de se retrouver dans l’ensemble d’entraînement et 20 % de chances de se retrouver dans l’ensemble de test.
- Lorsqu’un des ensembles est plein, les nouveaux documents seront placés dans l’autre ensemble jusqu’à ce qu’il soit lui aussi plein.
- Lorsque les deux ensembles sont pleins, de nouveaux documents peuvent encore être placés dans l’un ou l’autre ensemble, en remplaçant les documents existants les plus anciens.
- Lorsque les deux ensembles sont pleins, chaque nouveau document a 20 % de chances de se retrouver dans l’un des ensembles et 80 % de chances d’être écarté.
- Lorsque les deux ensembles sont pleins, chaque nouveau document qui n’a pas été écarté a 80 % de chances de se retrouver dans l’ensemble d’entraînement et 20 % de chances de se retrouver dans l’ensemble de test, en remplaçant le document existant le plus ancien dans l’un ou l’autre ensemble.

Étape 2. Démarrage d’une session d’apprentissage
- S’il s’agit de la première session d’apprentissage après la publication de la version du Skill, elle démarrera lorsque l’ensemble de documents aura reçu 10 % de nouveaux documents. Par exemple, s’il y a au total 95 documents dans l’ensemble, une nouvelle session d’apprentissage commencera après l’ajout de 10 nouveaux documents.
- Si la dernière session d’apprentissage a réussi et que le Skill a été mis à jour, une nouvelle session démarrera dans les mêmes conditions que pour la première.
- Si la dernière session d’apprentissage a échoué et que le Skill n’a pas été mis à jour, une nouvelle session d’apprentissage démarrera lorsque l’ensemble de documents aura reçu 5 % de nouveaux documents. Par exemple, s’il y a au total 95 documents dans l’ensemble, une nouvelle session d’apprentissage commencera après l’ajout de 5 nouveaux documents.
Étape 3. Comment la Skill est testée
- S’il y a au moins 20 documents dans l’ensemble de test, la Skill sera testée sur l’ensemble de test.
- S’il y a moins de 20 documents dans l’ensemble de test :
- Une Compétence de document sera testée à la fois sur l’ensemble d’entraînement et sur l’ensemble de test.
- Pour un Skill de classification, s’il n’y a pas assez de documents dans l’ensemble de documents (si chaque classe compte moins de cinq documents), la Skill sera testée à la fois sur l’ensemble d’entraînement et sur l’ensemble de test. S’il y a suffisamment de documents, une validation croisée sera utilisée pour évaluer l’exactitude.
