Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

S1-Bench: A Simple Benchmark for Evaluating System 1 Thinking Capability of Large Reasoning Models

Created by
  • Haebom

저자

Wenyuan Zhang, Shuaiyi Nie, Xinghua Zhang, Zefeng Zhang, Tingwen Liu

개요

본 논문은 직관적인 시스템 1 사고를 선호하는 단순 과제에서 대규모 추론 모델(LRM)의 성능을 평가하기 위해 새로운 벤치마크인 S1-Bench를 소개합니다. 복잡한 추론 과제에서 LRM이 사고의 명시적인 연쇄를 통해 상당한 발전을 이루었지만, 심층적인 분석적 사고에 대한 의존으로 인해 시스템 1 사고 능력이 제한될 수 있습니다. S1-Bench는 이러한 능력을 평가하기 위한 다양한 도메인과 언어에 걸쳐 단순하고 다양하며 자연스럽게 명확한 질문들을 제시하여 이러한 간극을 메웁니다. 22개의 LRM에 대한 포괄적인 평가 결과, 기존의 소규모 LLM보다 평균 15.5배 더 긴 출력을 생성하는 등 상당히 낮은 효율성 경향이 드러났습니다. 또한, LRM은 종종 정답을 일찍 찾지만 불필요한 숙고를 계속하며, 일부 모델은 여러 오류를 생성하기도 합니다. 이러한 결과는 현재 LRM의 경직된 추론 패턴을 강조하고, 과제의 복잡성에 따라 적절하게 적응할 수 있는 균형 잡힌 이중 시스템 사고 능력을 달성하기 위해 필요한 상당한 발전을 보여줍니다.

시사점, 한계점

시사점:
시스템 1 사고 능력 평가를 위한 새로운 벤치마크 S1-Bench 제시
LRM의 시스템 1 사고 능력의 한계를 밝힘
LRM의 비효율적인 추론 과정과 과도한 숙고 경향을 제시
균형 잡힌 이중 시스템 사고 능력 개발의 필요성 강조
한계점:
S1-Bench의 범위와 일반화 가능성에 대한 추가 연구 필요
시스템 1 사고와 시스템 2 사고의 명확한 구분에 대한 추가 논의 필요
다양한 유형의 LRM에 대한 더 광범위한 평가 필요
👍