강화 학습 (RL)을 사용하여 시각-언어 모델 (VLMs)의 추론 능력을 향상시키는 연구. Group Relative Policy Optimization (GRPO)는 전체 추론 과정을 생성하도록 하여 계산 비용을 증가시킨다. 본 연구는 인간과 유사하게, 쉬운 질문에는 추론을 건너뛰고 필요한 경우에만 신중하게 생각하도록 VLMs가 추론 여부를 먼저 결정하도록 하는 방법을 탐구한다. 이를 위해 '생각 드롭아웃' 연산을 사용하는 감독 학습 미세 조정 (SFT) 단계와, 모델이 생각 여부를 자유롭게 탐색하도록 하는 GRPO 단계를 포함하는 TON (Two-stage training strategy)을 제안한다. 실험 결과, TON은 성능 저하 없이 최대 90%까지 완료 길이를 줄였다. LLM (GSM8K), VLM (CLEVR, Super-CLEVR, GeoQA) 및 Agentic (AITZ) 작업에서 일관된 성능 향상을 보였다.