본 논문은 대규모 언어 모델의 비지도 강화 학습(RL) 방법의 추론 능력 향상 가능성을 탐구하지만, 제한된 추론 능력을 가진 소규모 모델에 대한 일반화 가능성이 부족하다는 점을 지적한다. 0.5B에서 7B 파라미터까지 다양한 모델 크기 및 추론 강도를 대상으로 비지도 RL 방법의 성능을 체계적으로 조사한 결과, 모델의 기존 추론 능력에 크게 의존하며, 더 약한 모델에서는 성능이 저하되는 한계를 발견했다. 특히, 소규모 모델은 효과적인 자기 반성을 가능하게 할 만큼 충분히 길거나 다양한 사고 사슬(chain-of-thought) 추론을 생성하지 못하며, 훈련 데이터의 난이도가 성공에 중요한 역할을 한다. 이러한 문제를 해결하기 위해, 본 연구는 훈련 과정에서 더 어려운 문제를 점진적으로 도입하고, 다수결 원칙에 부합하지 않는 롤아웃을 마스킹하는 커리큘럼 학습을 활용하는 간단하면서도 효과적인 비지도 RL 방법을 제안한다. 또한, 난이도가 미리 정의된 샘플을 생성하기 위한 데이터 큐레이션 파이프라인을 도입했다. 제안된 방법은 모든 모델 크기와 추론 능력에서 일관된 개선을 보여주며, 자원 제약적인 모델에서 추론 능력을 부트스트랩 할 수 있는 보다 강력한 비지도 RL의 경로를 제시한다.