본 논문은 대규모 추론 모델의 추론 비용을 줄이기 위한 새로운 강화학습 알고리즘 AdaptThink를 제안합니다. 기존의 장황한 추론 과정 대신, 비교적 간단한 문제에 대해서는 '생각하지 않고'(NoThinking) 바로 답을 생성하는 방식이 효율적임을 보였습니다. AdaptThink는 문제의 난이도에 따라 '생각하기'(Thinking)와 '생각하지 않기' 모드를 적응적으로 선택하도록 모델을 학습시킵니다. 이는 제약된 최적화 목표와 중요도 샘플링 전략을 통해 달성되며, 세 가지 수학 데이터셋 실험 결과, DeepSeek-R1-Distill-Qwen-1.5B 모델의 응답 길이를 53% 단축하고 정확도를 2.4% 향상시켰습니다.