본 논문은 검증 가능한 보상을 사용하는 강화 학습(RL)을 시각 언어 모델(VLM)에 적용하는 'MLLM-r1' 접근 방식에서, RL 전에 정책을 초기화하기 위한 콜드 스타트(cold start) 문제를 재조명합니다. 특히, 지도 학습 기반의 콜드 스타트가 지시 스타일의 과적합, 외부 분포 일반화 약화 등의 문제를 야기할 수 있다고 지적하며, 자체 증류 및 선호도 기반 훈련을 결합한 SPECS(Self-distilled, Preference-based Cold Start) 프레임워크를 제안합니다. SPECS는 표면적인 기준(형식, 구조, 스타일) 학습에 집중하여 모델의 일반화 능력을 향상시키고, 검증 가능한 보상을 통해 RL을 수행하여 깊이 있는 추론 결과를 얻습니다. 실험 결과는 SPECS가 다양한 멀티모달 벤치마크에서 기존 방법론 대비 성능 향상을 보임을 보여줍니다.