본 논문은 강화학습 기반의 대규모 언어 모델(LLM) 사후 학습, 특히 DeepSeek R1에서 GRPO를 적용한 방법에 대해 비판적으로 검토한다. LLM 학습을 마르코프 의사결정 과정(MDP)으로 모델링할 때의 일반적인 구조적 가정(1. MDP 상태를 행동의 연결로 정의하고, 상태를 문맥 창으로, 행동을 토큰으로 간주, 2. 상태-행동 경로의 보상을 균등하게 분배)이 MDP를 퇴화시켜 강화학습/GRPO 장치가 필요 없게 만든다는 점을 지적한다. 이러한 단순화된 가정으로 인해 강화학습 기반 접근 방식이 결과 중심의 지도 학습과 효과적으로 동등해짐을 보여주는 포괄적인 분석을 제시한다. GSM8K 및 Countdown 벤치마크를 사용한 Qwen-2.5 기본 모델 실험에서 양성 및 음성 샘플을 모두 통합한 반복적인 지도 학습 미세 조정이 GRPO 기반 학습과 비교할 만한 성능을 달성함을 보여준다. 또한, 이러한 구조적 가정이 간접적으로 RL이 더 긴 중간 토큰 시퀀스를 생성하도록 유도하여 "RL이 더 긴 사고 흔적을 생성한다"는 서술을 강화한다는 점을 논증한다. 강화학습이 LLM의 추론 능력 향상에 매우 유용한 기술일 수 있지만, 기본 MDP를 모델링할 때 단순화된 구조적 가정은 널리 사용되는 LLM RL 프레임워크 및 해석에 의문을 제기한다는 것을 보여준다.