Este artículo estudia si los modelos de lenguaje preentrenados pueden mejorar sus capacidades de razonamiento generando preguntas y respuestas de forma independiente, sin datos externos. Para ello, proponemos los Modelos de Lenguaje de Autocuestionamiento (SQLM), un marco de autoaprendizaje asimétrico. Un proponente recibe un tema y genera preguntas, mientras que un solucionador las responde. Tanto el proponente como el solucionador se entrenan mediante aprendizaje por refuerzo. El proponente recibe una recompensa por generar un problema de dificultad adecuada, y el solucionador recibe una recompensa por determinar la corrección de la respuesta mediante votación mayoritaria. Para los problemas de codificación, el proponente genera pruebas unitarias, que se utilizan para la validación. Se realizan experimentos en tres puntos de referencia: multiplicación de tres dígitos, problemas de álgebra del punto de referencia OMEGA y problemas de programación de Codeforces. Demostramos que el modelo de lenguaje puede mejorar el rendimiento sin datos externos.