Este artículo presenta un método novedoso para mejorar la capacidad de resolución de problemas complejos de los modelos de lenguaje a gran escala (LLM) mediante aprendizaje por refuerzo. El aprendizaje por refuerzo convencional requiere señales de recompensa verificables, que suelen ser costosas y poco prácticas en todos los dominios. Este estudio demuestra que los LLM pueden aprovechar la asimetría entre la generación y la validación para autoevaluarse y mejorar sin una solución de referencia. Al implementar la autoevaluación mediante rompecabezas de cuenta regresiva y problemas de integración, logramos un rendimiento comparable al de los métodos de validación convencionales. En concreto, el modelo Qwen 2.5 7B DeepSeek Distilled, entrenado con autorecompensa, logró un rendimiento comparable al obtenido en la competición MIT Integration Bee. Combinado con la generación sintética de problemas, establecemos un ciclo completo de autosuperación donde el modelo genera, resuelve y evalúa problemas por sí solo. Esto demuestra que el aprendizaje por refuerzo puede aplicarse en numerosos dominios que anteriormente estaban limitados por la dificultad del diseño de recompensas. Esto representa un paso significativo hacia sistemas de IA autónomos que mejoran continuamente mediante el aprendizaje autodirigido sin intervención humana.