본 논문은 대규모 언어 모델(LLM)의 강화 학습 기반 재훈련, 특히 GRPO를 사용한 DeepSeek R1의 발표 이후 주목받고 있는 방법론에 대한 비판적 검토를 제시한다. LLM 훈련을 마르코프 결정 과정(MDP)으로 모델링하는 데 사용되는 일반적인 구조적 가정(1. MDP 상태를 액션과 상태의 연결로, 즉 컨텍스트 창을 상태로, 토큰을 액션으로 정의, 2. 상태-액션 경로의 보상을 균일하게 분할)을 강조하고, 이러한 가정이 퇴화된 MDP를 초래하여 RL/GRPO 기법이 실제로 필요하지 않음을 보여준다. GSM8K 및 Countdown 벤치마크를 사용한 실험을 통해 양성 및 음성 샘플을 모두 포함하는 반복적인 지도 학습 미세 조정이 GRPO 기반 훈련과 비슷한 성능을 달성함을 보여준다. 또한, 이러한 구조적 가정이 RL이 더 긴 중간 토큰 시퀀스를 생성하도록 간접적으로 유도하여 "RL이 더 긴 사고 흔적을 생성한다"는 설명을 뒷받침한다는 주장을 제기한다. 결론적으로, RL이 LLM의 추론 능력 향상에 매우 유용한 기술일 수 있지만, 기본 MDP를 모델링하는 데 사용되는 단순화된 구조적 가정으로 인해 인기 있는 LLM RL 프레임워크와 해석에 의문이 제기된다는 것을 보여준다.