Cet article présente des recherches visant à déterminer si les modèles de langage à grande échelle peuvent améliorer leurs performances en générant des questions et des réponses de manière indépendante, sans données externes. Pour y parvenir, nous proposons un cadre d'auto-apprentissage asymétrique appelé Modèle de langage auto-questionnant (SQLM). SQLM se compose d'un proposant qui génère des questions et d'un solveur qui génère des réponses, entraînés par apprentissage par renforcement. Le proposant vise à générer des problèmes de difficulté appropriée, et le solveur est jugé correct par un vote majoritaire. Pour les problèmes de codage, le proposant génère des tests unitaires, que le solveur vérifie. Nous avons mené des expériences sur trois benchmarks : la multiplication à trois chiffres, les problèmes algébriques du benchmark OMEGA et les problèmes de programmation de Codeforces, démontrant ainsi des améliorations de performances sans données externes.