본 논문은 대규모 추론 모델(LRM)의 과도한 추론(over-thinking) 문제를 해결하기 위해 적응적 사고 능력을 부여하는 방법을 제시합니다. 단순 문제에 대한 과도한 계산 오버헤드 및 지연 시간을 줄이기 위해, 문제의 복잡도에 따라 명시적인 추론을 수행할지 여부를 동적으로 결정하는 기능을 LRM에 추가하는 것을 목표로 합니다. R1 스타일의 증류 모델을 기반으로, 프롬프트에 간단한 생략 부호("...")를 삽입하여 확률적으로 사고 모드 또는 비사고 모드를 유발할 수 있음을 발견하고, 이를 활용하여 다단계 강화 학습(RL) 프레임워크인 AutoThink를 제안합니다. AutoThink는 단순 작업에는 간결한 응답을 기본으로 하면서 필요한 경우에만 명시적인 추론을 호출하도록 학습합니다. 다섯 가지 주요 수학 벤치마크에 대한 실험 결과, AutoThink는 최근의 프롬프트 및 RL 기반 가지치기 방법과 비교하여 유리한 정확도-효율성 절충안을 달성함을 보여줍니다. 증류된 모델과 추가적으로 미세 조정된 변형을 포함한 모든 R1 스타일 모델에 원활하게 통합될 수 있으며, 특히 DeepSeek-R1-Distill-Qwen-1.5B에서 상대적 정확도를 6.4% 향상시키면서 토큰 사용량을 52% 줄였습니다.