장문 사고(CoT) 궤적에 대한 지도 미세 조정(SFT)은 대형 언어 모델(LLM)의 추론 능력을 향상시키는 데 중요한 기술로 부상했습니다. 그러나 표준 교차 엔트로피 손실은 모든 토큰을 동일하게 취급하여 추론 궤적 전체에서 이질적인 기여를 무시합니다. 이러한 균일한 처리는 특히 복잡하고 장문의 추론 작업에서 잘못된 감독과 약한 일반화로 이어집니다. 이를 해결하기 위해, 우리는 CoT 감독을 제약된 최적화 문제로 재구성하는 원리적인 프레임워크인 VCORE(Variance-Controlled Optimization-based REweighting)를 소개합니다. 최적화 이론적 관점을 채택함으로써, VCORE는 토큰 전체에서 원리적이고 적응적인 감독 할당을 가능하게 하여 견고한 추론 일반화의 목표에 훈련 목표를 더 가깝게 정렬합니다. 실험적 평가는 VCORE가 기존 토큰 재가중 방법보다 일관되게 우수한 성능을 보임을 보여줍니다. 도메인 내 및 도메인 외 설정 모두에서 VCORE는 Qwen3 시리즈(4B, 8B, 32B) 및 LLaMA-3.1-8B-Instruct 모델을 사용하여 수학 및 코딩 벤치마크에서 상당한 성능 향상을 달성합니다. 또한 VCORE가 후속 강화 학습을 위한 보다 효과적인 초기화 역할을 하여 LLM의 추론 능력을 향상시키기 위한 더욱 강력한 기반을 구축한다는 것을 보여줍니다.