본 논문은 대규모 언어 모델(LLM) 훈련의 강화 학습 단계에서, 특히 수학 문제와 같은 추론 과제에서 사용되는 두 가지 알고리즘(PPO와 VinePPO)을 통해, 많은 문제들이 모든 시도에서 해결되거나(이미 학습된 경우) 또는 하나도 해결되지 않아(유의미한 훈련 신호가 없는 경우) 효율성이 떨어지는 문제점을 지적한다. 이를 해결하기 위해, 강화 학습 문헌에서 사용되는 '학습 가능성을 위한 샘플링' 기법을 LLM 훈련의 강화 학습 단계에 적용하여, 성공률의 분산이 높은 문제(때때로 성공하지만 항상 성공하는 것은 아닌 문제)를 우선적으로 학습하는 커리큘럼을 제안한다. 실험 결과, 이 커리큘럼은 여러 알고리즘과 데이터셋에서 일관되게 훈련 성능을 향상시키는 것을 보여준다.