Cet article propose NOVER (No-Verifier Reinforcement Learning), un nouveau cadre d'apprentissage par renforcement sans vérificateurs externes. Les approches conventionnelles d'apprentissage par incitation reposent sur des vérificateurs externes, ce qui limite leur applicabilité dans des domaines comme les mathématiques et le codage, où les vérificateurs ne sont pas facilement disponibles. Cependant, NOVER permet un apprentissage par incitation en utilisant uniquement des données standard de réglage fin d'apprentissage supervisé. Applicable à diverses tâches de conversion de texte à texte, NOVER surpasse de 7,7 % les modèles de taille similaire issus de modèles d'inférence à grande échelle comme DeepSeek R1 671B. De plus, il offre de nouvelles possibilités d'optimisation de modèles linguistiques à grande échelle, comme l'apprentissage par incitation inverse.