본 연구는 RLVR (Reinforcement Learning with Verifiable Rewards)로 훈련된 LLM(Large Language Model)의 추론 능력 경계를 체계적으로 조사한다. 다양한 모델 계열, RL 알고리즘, 수학, 코딩, 시각적 추론 벤치마크를 사용하여 RLVR 훈련 모델의 추론 능력을 평가하며, pass@k를 평가 지표로 사용한다. 연구 결과, 현재의 RLVR 훈련 방식은 근본적으로 새로운 추론 패턴을 유도하지 못하며, base model의 능력을 초과하지 못함을 발견했다.