강화 학습 (RL)을 시각 언어 모델에 적용하는 "MLLM-r1" 접근 방식은 검증 가능한 보상을 통해 최근 주목받고 있다. 대부분의 대표적인 패러다임은 지도 학습 미세 조정(SFT)을 사용하여 RL 전에 정책을 초기화하는 콜드 스타트부터 시작한다. 그러나 SFT 기반 콜드 스타트는 작업 솔루션 및 출력 형식과 얽힌 추론 패러다임을 채택하여 지시 스타일 과적합을 유발하고, 분포 외 일반화를 약화시켜 다운스트림 RL에 영향을 미칠 수 있다. 본 논문은 콜드 스타트를 훈련 방법과 데이터 구성을 두 가지 관점에서 재검토하고, 서로 다른 방법론 하에서 일반화 능력을 정량화하기 위해 일반화 계수(GF)를 도입한다. 선호도 기반 훈련 방법(예: DPO)이 SFT 기반 방법보다 콜드 스타트에서 더 나은 일반화를 보인다는 것을 확인했다. 이를 바탕으로, 자체 증류, 선호도 기반 콜드 스타트 프레임워크인 SPECS를 제안한다. SPECS는 멀티모달 학습을 분리하여 (1) 자체 증류를 통해 자기 성찰적 선호도 데이터 쌍을 생성하여 더 큰 교사 또는 수동 주석에 대한 의존성을 피하고, (2) 내용 암기보다는 얕고 이전 가능한 표면 형태 기준(형식, 구조, 스타일)에 집중하여 선호도 기반 훈련을 수행하며, (3) 깊은 추론 결과를 위해 검증 가능한 보상으로 RL에 전달한다. 실험 결과는 여러 멀티모달 벤치마크에서 SPECS가 강력한 기준선보다 일관된 성능 향상을 보이며, MEGA-Bench를 4.1%, MathVista를 12.2% 향상시킨다는 것을 보여준다. 추가 실험을 통해 SPECS가 내부 분포 "고착"을 줄이고, 탐색을 개선하며, 훈련을 안정화시키고, 성능 상한선을 높이는 데 기여함을 알 수 있다.