# The Implicit Curriculum: Learning Dynamics in RL with Verifiable Rewards

### 저자

Yu Huang, Zixin Wen, Yuejie Chi, Yuting Wei, Aarti Singh, Yingbin Liang, Yuxin Chen

### 💡 개요

본 연구는 강화학습에서의 검증 가능한 보상(RLVR)이 어떻게 긴 추론 과제에서 장벽을 극복하는 데 기여하는지에 대한 의문을 해결합니다. 복합적 추론 과제에서 트랜스포머 모델을 대상으로 RLVR의 훈련 동역학을 분석한 결과, 훈련은 명시적인 스케줄 없이도 자연스럽게 쉬운 문제에서 어려운 문제로 이어지는 '암묵적 커리큘럼'을 따른다는 것을 보여줍니다. 이러한 암묵적 커리큘럼의 효과는 난이도 스펙트럼의 부드러움에 의해 결정되며, 부드러운 경우 훈련은 지속적인 그래디언트 신호를 통해 학습 효율을 높이는 릴레이(relay) 모드로 진입합니다.

### 🔑 시사점 및 한계

- RLVR은 명시적인 난이도 조절 없이도 자연스럽게 쉬운 문제부터 어려운 문제로 학습을 유도하는 암묵적 커리큘럼을 형성합니다.

- 난이도 스펙트럼의 연속성이 훈련 동역학의 효율성을 결정하며, 부드러운 스펙트럼은 학습 과정을 원활하게 합니다.

- 연구는 복합적 추론 과제에 초점을 맞추고 있으며, 다양한 종류의 추론이나 다른 모델 구조에 대한 적용 가능성은 추가적인 연구가 필요합니다.

---

[PDF 보기](https://arxiv.org/pdf/2602.14872)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
