Cet article montre que, lors de la phase d'apprentissage par renforcement de l'apprentissage des modèles de langage à grande échelle (LLM), notamment pour les tâches d'inférence telles que les problèmes mathématiques, de nombreux problèmes sont soit résolus à tous les essais (déjà appris), soit pas résolus du tout lors de l'apprentissage avec les algorithmes PPO et VinePPO. Pour résoudre ce problème, l'article applique la méthode d'« échantillonnage pour l'apprentissage » proposée dans la littérature sur l'apprentissage par renforcement à la phase d'apprentissage par renforcement de l'apprentissage LLM. Cette méthode utilise un programme d'apprentissage qui privilégie les problèmes présentant une forte variance des taux de réussite, c'est-à-dire des problèmes où l'agent réussit parfois, mais pas toujours. Les résultats expérimentaux montrent que ce programme améliore systématiquement les performances d'apprentissage sur plusieurs algorithmes et jeux de données.