Este artículo investiga si los modelos de lenguaje preentrenados pueden mejorar su capacidad de inferencia generando preguntas y respuestas por sí mismos, sin datos externos. Para lograrlo, proponemos un método que proporciona una única indicación, especificando un tema (p. ej., un problema algebraico) y permitiendo que el modelo genere preguntas por sí mismo. Presentamos Modelos de Lenguaje de Autocuestionamiento (SQLM), un marco de autoaprendizaje asimétrico que consta de un proponente (para generar preguntas) y un solucionador (para generar respuestas), ambos entrenados mediante aprendizaje por refuerzo. El proponente es recompensado por generar problemas de dificultad adecuada, mientras que el solucionador es recompensado según la mayoría de votos (o aproximaciones si no se encuentra la respuesta correcta). Para problemas de codificación, el proponente genera pruebas unitarias y las utiliza para la validación. Demostramos este marco en tres puntos de referencia: multiplicación de tres dígitos, problemas de álgebra del punto de referencia OMEGA y problemas de programación de Codeforces, demostrando que el marco puede mejorar el rendimiento del modelo de lenguaje sin un conjunto de datos de entrenamiento externo.