본 논문은 시각-언어 모델(VLMs)의 추론 능력 향상을 위한 강화 학습(RL) 전략으로, 기존의 Group Relative Policy Optimization (GRPO)의 높은 계산 비용 문제를 해결하기 위해 제안된 TON 방법을 제시합니다. TON은 생각이 필요한지 여부를 먼저 결정하는 두 단계 학습 전략(지도 학습 기반의 생각 생략 연산과 GRPO 기반의 생각 여부 결정)을 사용하여, GRPO에 비해 최대 90%까지 완료 길이를 줄이면서 성능 저하 없이 오히려 성능 향상을 보였습니다. 다양한 시각-언어 작업과 모델 크기(3B, 7B)에서 실험을 통해, 모델이 학습이 진행됨에 따라 불필요한 추론 단계를 건너뛰는 것을 학습함을 보였습니다. 이는 인간과 같은 추론 패턴을 강화 학습 접근 방식에서 구현하는 데 대한 통찰력을 제공합니다.