본 논문은 강화학습(RL)으로 후처리된 대규모 언어 모델(LLM)에서 자가 성찰 능력이 어떻게 발생하는지에 대한 메커니즘을 탐구합니다. 제안된 'Two-Stage Decision-Sampling (DS) Hypothesis'는 정책을 생성 담당($\pi_{sample}$)과 검증 담당($\pi_{d}$)으로 분해하여, 보상 기울기가 각 정책 구성 요소에 어떻게 분포하는지를 설명합니다. 이를 통해 RL이 SFT(Supervised Fine-Tuning)보다 자가 수정 능력이 뛰어난 이유를 이론적으로 규명하고, 산술 추론 실험을 통해 이를 실증적으로 검증합니다.