Presentamos los resultados de un estudio que aplicó aprendizaje por refuerzo a largo plazo a modelos lingüísticos a pequeña escala para lograr mejoras de rendimiento en diversos dominios de inferencia, como matemáticas, programación y acertijos lógicos. Realizamos un entrenamiento eficaz mediante el uso de señales de recompensa verificables, la mejora de la Optimización de Políticas Relativa de Grupo (GRPO) y el control de la regularización KL, la tasa de recorte y el restablecimiento periódico de la política de referencia para mejorar la estabilidad del entrenamiento y el rendimiento de la generalización. Como resultado, mostramos mejoras significativas de rendimiento con respecto a los modelos de vanguardia existentes en tareas de matemáticas (+14,7%), programación (+13,9%) y acertijos lógicos (+54,8%), y publicamos los modelos entrenados para apoyar investigaciones posteriores.