본 논문은 최근 대규모 언어 모델(LLM)의 추론 능력 향상이 명시적인 사고 과정을 포함하는 것에 의존한다는 점에 의문을 제기한다. 최첨단 DeepSeek-R1-Distill-Qwen 모델을 사용하여, 사고 과정을 생략하는 단순 프롬프팅 방식(NoThinking)이 놀라울 정도로 효과적임을 보여준다. 토큰 수를 통제했을 때, NoThinking은 수학 문제 해결, 정리 증명, 코딩 등 다양한 추론 데이터셋에서 Thinking 방식보다 우수한 성능을 보였으며, 특히 제한된 토큰 환경에서 그 차이가 두드러진다(예: ACM 23 데이터셋에서 700 토큰 기준 51.3% 대 28.9%). NoThinking의 성능은 pass@k에서 k 값이 증가할수록 Thinking과 더욱 유사해진다. 이를 바탕으로, NoThinking을 이용하여 여러 출력을 독립적으로 생성하고 이를 집계하는 병렬 확장 방식이 매우 효과적임을 보인다. 집계에는 작업별 검증기를 사용하거나, 신뢰도 기반 선택과 같은 단순한 best-of-N 전략을 적용한다. 본 연구의 방법은 Thinking 방식을 사용하는 기준 모델보다 지연 시간이 짧으면서도 우수한 성능을 보였고, 지연 시간이 훨씬 긴(최대 9배) Thinking 방식과 비슷한 성능을 달성했다. 결론적으로, 본 논문은 긴 사고 과정의 필요성에 대한 재고를 촉구하며, 제한된 자원 또는 짧은 지연 시간 내에서 강력한 추론 성능을 달성하기 위한 경쟁력 있는 기준을 제시한다.