En este artículo, señalamos las limitaciones del aprendizaje por refuerzo (RL) tradicional para mejorar la capacidad de inferencia multinivel de los modelos de inferencia de lenguaje (LLM) a gran escala mediante aprendizaje por refuerzo (RL), y proponemos un método novedoso, Question Augmentation (QuestA), para resolver estas limitaciones. QuestA reduce la dificultad del problema añadiendo soluciones parciales durante el proceso de aprendizaje por refuerzo, lo que proporciona señales de entrenamiento más informativas. Al aplicar QuestA durante el aprendizaje por refuerzo en tareas de inferencia matemática, se mejoran los rendimientos de Pass@1 y Pass@k, especialmente en problemas donde el RL tradicional presenta dificultades. Al mejorar aún más la capacidad de inferencia de potentes modelos de código abierto como DeepScaleR y OpenMath Nemotron, logramos nuevos resultados de vanguardia (67,1 %, 59,5 % y 35,5 %, respectivamente) en los benchmarks AIME24, AIME25 y HMMT25. Además, proporcionamos una explicación teórica de por qué QuestA mejora la eficiencia de la muestra, sugiriendo un método práctico y generalizable para ampliar la capacidad de inferencia a través de RL.