OpenAI의 o1/o3, DeepSeek-R1과 같은 대형 추론 모델(LRM)의 발전은 인간과 유사한 사고와 장기간 사고 과정을 통해 특화된 추론 작업에서 뛰어난 성능을 보였다. 그러나 DeepSeek, Qwen, LLaMA 모델 계열과 7B에서 32B까지의 규모를 대상으로 한 체계적인 평가 결과, 이러한 신중한 추론 능력을 습득하는 것이 유용성과 무해성 측면에서 LRM의 기본적인 능력을 감소시키고, 추론 비용을 크게 증가시키는 것으로 나타났다. 중요한 점은 Zero-Thinking, Less-Thinking, Summary-Thinking과 같은 모드를 사용하는 적응형 추론이 이러한 단점을 효과적으로 완화할 수 있다는 것이다. 본 연구는 특정 작업 특성에 따라 추론 시간을 동적으로 할당할 수 있는 보다 다재다능한 LRM 개발의 필요성을 강조한다.