본 논문은 대규모 언어 모델(LLM)의 강화 학습 단계에서, 특히 수학 문제와 같은 추론 기반 과제에서 PPO 및 VinePPO 알고리즘을 사용하여 훈련하는 과정에서 많은 문제들이 모든 시도에서 해결되거나(이미 학습됨) 전혀 해결되지 않는다는 점을 보여줍니다. 이러한 문제를 해결하기 위해, 강화 학습 문헌에서 사용되는 '학습 가능성을 위한 샘플링' 기법을 LLM 훈련의 강화 학습 단계에 적용합니다. 본 연구는 성공률의 분산이 높은 문제(때때로 성공하지만 항상 성공하는 것은 아닌 문제)를 우선적으로 학습하는 커리큘럼을 제시하며, 이를 통해 여러 알고리즘과 데이터셋에서 훈련 성능이 향상됨을 보여줍니다.