본 논문은 외부 데이터 의존 없이 자체 개선을 통해 대규모 언어 모델(LLM)의 성능을 향상시키는 기법인 자기 개선 과정에서 LLM의 성능이 어떻게 발전하는지 이론적으로 모델링한다. 특히, LLM의 해결 능력과 검증 능력 간의 격차(solver-verifier gap) 개념을 통해 자기 개선 훈련 역학을 모델링하고, 이를 기반으로 전체 훈련 궤적을 모델링하는 방법을 제시한다. 실험 결과를 통해 이론적 프레임워크의 효과를 검증하며, 외부 데이터가 이러한 역학에 미치는 영향도 분석한다. 제한된 외부 데이터 환경에서는 어떤 시점에서든 외부 데이터를 사용하여 최종 성능에 큰 영향을 미치지 않는다는 사실을 발견한다.