언어 모델 미세 조정을 위한 고품질 훈련 예제를 수집하는 것은 비용이 많이 들며, 실제 예산은 획득할 수 있는 데이터 양을 제한합니다. 본 연구에서는 여러 모델과 추론 작업에서 선택 전략 (쉬움, 중간, 어려움, 무작위)을 비교하여 예제 난이도가 GRPO 훈련 효율성에 영향을 미치는지 조사했습니다. 가장 어려운 10%의 예제 (기본 모델이 가장 자주 실패하는 예제)로 훈련하면 최대 47%까지 획기적인 성능 향상을 보이며, 쉬운 예제는 3-15%의 최소한의 개선만을 보였습니다. 이는 GRPO가 학습 신호를 생성하기 위해 결과 분산을 요구하기 때문에 발생합니다. 어려운 예제는 훈련 기간 동안 혼합된 성공/실패 결과를 유지하는 반면, 쉬운 예제는 일관된 성공으로 빠르게 수렴하여 학습 기회를 제거합니다. 또한, 어려운 예제로 훈련된 모델은 더 우수한 out-of-distribution 일반화를 보였으며, 어려운 모델로 훈련된 모델만이 AIME2025 벤치마크에서 의미 있는 이점을 얻었습니다.