대규모 언어 모델(LLM)의 추론 능력 향상은 강화 학습(RL)에 의해 크게 좌우되지만, RL 훈련 중 기본 매개변수 역학에 대한 이해는 부족하다. 본 연구는 LLM에서 RL에 의해 유도된 매개변수 업데이트의 두 가지 기본 속성을 식별한다: (1) 랭크-1 지배성(Rank-1 Dominance) - 매개변수 업데이트 행렬의 상위 특이 서브스페이스가 추론 개선을 거의 완벽하게 결정하며, 성능 향상의 99% 이상을 회복; (2) 랭크-1 선형 역학(Rank-1 Linear Dynamics) - 이 지배적인 서브스페이스는 훈련 전체에서 선형적으로 진화하며, 초기 체크포인트에서 정확한 예측을 가능하게 한다. 8개의 LLM 및 7개의 알고리즘에 대한 광범위한 실험을 통해 이러한 속성의 일반화 가능성을 검증했다. 또한, 이러한 결과를 바탕으로, 짧은 초기 훈련 기간을 사용하여 최종 매개변수 업데이트를 외삽하는 플러그인 가속 프레임워크인 AlphaRL을 제안하여, 추가 모듈이나 하이퍼파라미터 조정 없이 추론 성능의 96% 이상을 유지하면서 최대 2.5배의 속도 향상을 달성했다. 이는 대규모 RL을 위한 다재다능하고 실용적인 도구로서, LLM을 위한 원리적이고 해석 가능하며 효율적인 훈련 패러다임을 향한 길을 열어준다.