본 논문은 강화 학습을 통해 대규모 언어 모델의 추론 능력을 향상시키는 연구에 대해 다룹니다. 기존의 강화 학습 기반 방법들은 문제의 난이도에 따라 학습 문제를 스케줄링하여 표본 효율성을 높이려고 시도하지만, 난이도 추정의 불안정성과 편향성, 모델의 능력과 문제 난이도 간의 정렬 부족으로 인해 최적의 결과를 얻지 못하는 한계를 가지고 있습니다. 이를 해결하기 위해, 본 논문에서는 문제의 과거 성능 차이를 집계하여 정확하고 안정적인 난이도 추정을 가능하게 하는 Competence-Difficulty Alignment Sampling (CDAS) 방법을 제시합니다. CDAS는 고정점 시스템을 이용하여 모델의 능력에 맞는 난이도의 문제를 적응적으로 선택합니다. 다양한 수학적 벤치마크에 대한 실험 결과, CDAS는 정확도와 효율성 모두에서 큰 향상을 보이며, 특히 경쟁적인 Dynamic Sampling 방법보다 2.33배 빠른 속도를 보입니다.