Este artículo muestra que, en la fase de aprendizaje por refuerzo del entrenamiento de modelos de lenguaje a gran escala (LLM), especialmente en tareas de inferencia como problemas matemáticos, muchos problemas se resuelven en todos los ensayos (ya aprendidos) o no se resuelven en absoluto durante el entrenamiento con los algoritmos PPO y VinePPO. Para abordar esta cuestión, el artículo aplica el método de "muestreo para la capacidad de aprendizaje" propuesto en la literatura sobre aprendizaje por refuerzo a la fase de aprendizaje por refuerzo del entrenamiento LLM. Este método utiliza un currículo que entrena preferentemente en problemas con alta varianza en las tasas de éxito, es decir, problemas en los que el agente a veces tiene éxito, pero no siempre. Los resultados experimentales muestran que este currículo mejora consistentemente el rendimiento del entrenamiento en múltiples algoritmos y conjuntos de datos.