Cet article étudie si des modèles de langage pré-entraînés peuvent améliorer leurs capacités de raisonnement en générant des questions et des réponses de manière indépendante, sans données externes. Pour y parvenir, nous proposons des modèles de langage auto-questionnants (SQLM), un cadre d'auto-apprentissage asymétrique. Un proposant reçoit un sujet et génère des questions, tandis qu'un solveur y répond. Le proposant et le solveur sont tous deux entraînés par apprentissage par renforcement. Le proposant reçoit une récompense pour avoir généré un problème de difficulté appropriée, et le solveur reçoit une récompense pour avoir déterminé l'exactitude de la réponse par vote majoritaire. Pour les problèmes de codage, le proposant génère des tests unitaires, utilisés pour la validation. Des expériences sont menées sur trois benchmarks : la multiplication à trois chiffres, les problèmes d'algèbre du benchmark OMEGA et les problèmes de programmation de Codeforces. Nous démontrons que le modèle de langage peut améliorer les performances sans données externes.