강화 학습 (RL)을 사용하여 대규모 언어 모델 (LLM)의 추론 능력을 향상시키는 연구. 기존 방법의 문제점인 Gradient Starvation 및 Policy Degradation을 해결하기 위해, AdaCuRL이라는 적응형 커리큘럼 강화 학습 프레임워크를 제안. AdaCuRL은 coarse-to-fine 난이도 추정을 통한 적응형 커리큘럼 스케줄링, 데이터 재방문 메커니즘, 적응형 참조 및 희소 KL 전략을 통합하여 성능을 향상시킴. 다양한 추론 벤치마크에서 LLM 및 MLLM 모두에 대해 상당한 성능 향상을 보임.