Cet article examine si les modèles de langage pré-entraînés peuvent améliorer leurs capacités d'inférence en générant eux-mêmes des questions et des réponses, sans données externes. Pour ce faire, nous proposons une méthode qui ne fournit qu'une seule invite, spécifiant un sujet (par exemple, un problème algébrique) et permettant au modèle de générer lui-même des questions. Nous présentons les modèles de langage auto-questionnants (SQLM), un cadre d'auto-apprentissage asymétrique composé d'un proposant (pour la génération de questions) et d'un résolveur (pour la génération de réponses), tous deux entraînés par apprentissage par renforcement. Le proposant est récompensé pour la génération de problèmes de difficulté appropriée, tandis que le résolveur est récompensé en fonction des votes majoritaires (ou des approximations si aucune réponse correcte n'est trouvée). Pour les problèmes de codage, le proposant génère des tests unitaires et les utilise pour la validation. Nous démontrons ce cadre sur trois benchmarks : la multiplication à trois chiffres, les problèmes d'algèbre du benchmark OMEGA et les problèmes de programmation de Codeforces, démontrant ainsi que ce cadre peut améliorer les performances des modèles de langage sans jeu de données d'entraînement externe.