Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Reasoning Models Can Be Effective Without Thinking

Created by
  • Haebom

저자

Wenjie Ma, Jingxuan He, Charlie Snell, Tyler Griggs, Sewon Min, Matei Zaharia

개요

본 논문은 최근 대규모 언어 모델(LLM)의 추론 능력 향상이 명시적인 사고 과정을 포함하는 것에 의존한다는 점에 의문을 제기한다. 최첨단 DeepSeek-R1-Distill-Qwen 모델을 사용하여, 사고 과정을 생략하는 단순 프롬프팅 방식(NoThinking)이 놀라울 정도로 효과적임을 보여준다. 토큰 수를 통제했을 때, NoThinking은 수학 문제 해결, 정리 증명, 코딩 등 다양한 추론 데이터셋에서 Thinking 방식보다 우수한 성능을 보였으며, 특히 제한된 토큰 환경에서 그 차이가 두드러진다(예: ACM 23 데이터셋에서 700 토큰 기준 51.3% 대 28.9%). NoThinking의 성능은 pass@k에서 k 값이 증가할수록 Thinking과 더욱 유사해진다. 이를 바탕으로, NoThinking을 이용하여 여러 출력을 독립적으로 생성하고 이를 집계하는 병렬 확장 방식이 매우 효과적임을 보인다. 집계에는 작업별 검증기를 사용하거나, 신뢰도 기반 선택과 같은 단순한 best-of-N 전략을 적용한다. 본 연구의 방법은 Thinking 방식을 사용하는 기준 모델보다 지연 시간이 짧으면서도 우수한 성능을 보였고, 지연 시간이 훨씬 긴(최대 9배) Thinking 방식과 비슷한 성능을 달성했다. 결론적으로, 본 논문은 긴 사고 과정의 필요성에 대한 재고를 촉구하며, 제한된 자원 또는 짧은 지연 시간 내에서 강력한 추론 성능을 달성하기 위한 경쟁력 있는 기준을 제시한다.

시사점, 한계점

시사점:
명시적인 사고 과정 없이도 높은 추론 성능을 달성할 수 있음을 보여줌.
제한된 자원 환경(토큰 수 제한)에서 효율적인 추론 방법을 제시.
병렬 처리를 통한 성능 향상 가능성 제시.
기존의 긴 사고 과정 기반 추론 방식에 대한 재고를 촉구.
한계점:
특정 모델(DeepSeek-R1-Distill-Qwen)에 대한 결과이므로 일반화 가능성에 대한 추가 연구 필요.
사용된 데이터셋의 종류와 범위에 따라 성능 차이가 발생할 수 있음.
NoThinking 방식의 성능 향상이 모든 유형의 추론 문제에 적용될 수 있는지 추가 검증 필요.
집계 방식의 최적화 및 다양한 검증 방법에 대한 추가 연구 필요.
👍