본 논문은 시각-언어 모델(VLMs)의 추론 능력 향상을 위한 강화 학습(RL) 전략으로, 기존의 Group Relative Policy Optimization (GRPO)의 높은 계산 비용 문제를 해결하기 위해 제안된 TON 방법을 소개한다. TON은 생각(추론 과정)을 생략할지 여부를 결정하는 두 단계 학습 전략을 사용한다. 첫 번째 단계인 지도 학습 미세 조정(SFT) 단계에서는 '생각 삭제(thought dropout)' 연산을 통해 추론 과정을 임의로 생략하여 모델이 선택적 추론을 학습하도록 유도한다. 두 번째 단계인 GRPO 단계에서는 과제 성과 보상을 극대화하면서 생각할지 말지를 자유롭게 결정하도록 한다. 실험 결과, TON은 기존 GRPO에 비해 완료 길이를 최대 90%까지 줄이면서 성능 저하 없이 오히려 성능 향상을 보였다. 다양한 시각-언어 과제와 모델 크기(3B, 7B)에 대한 평가를 통해, 모델이 학습이 진행됨에 따라 불필요한 추론 단계를 건너뛰는 것을 학습함을 확인했다.