본 논문은 강화 학습(RL)을 사용하여 대규모 언어 추론 모델(LLM)의 다단계 추론 능력을 향상시키는 데 있어 기존 RL의 한계를 지적하고, 이를 해결하기 위한 새로운 방법인 질문 증강(QuestA)을 제안합니다. QuestA는 RL 학습 과정 중 부분적인 해결책을 추가하여 문제의 난이도를 낮추고 더욱 유익한 학습 신호를 제공합니다. 수학 추론 과제에 대한 RL 학습 중 QuestA를 적용한 결과, Pass@1 및 Pass@k 성능이 향상되었으며, 특히 기존 RL이 어려움을 겪는 문제에서 효과가 컸습니다. DeepScaleR 및 OpenMath Nemotron과 같은 강력한 오픈소스 모델의 추론 능력을 더욱 향상시켜 AIME24, AIME25, HMMT25 벤치마크에서 새로운 최첨단 결과(각각 67.1%, 59.5%, 35.5%)를 달성했습니다. 또한, QuestA가 샘플 효율성을 향상시킨다는 이론적 설명을 제공하여 RL을 통한 추론 능력 확장을 위한 실용적이고 일반화 가능한 방법을 제시합니다.