본 논문은 직관적인 시스템 1 사고를 선호하는 단순 과제에서 대규모 추론 모델(LRM)의 성능을 평가하기 위해 새로운 벤치마크인 S1-Bench를 소개합니다. 복잡한 추론 과제에서 LRM이 사고의 명시적인 연쇄를 통해 상당한 발전을 이루었지만, 심층적인 분석적 사고에 대한 의존으로 인해 시스템 1 사고 능력이 제한될 수 있습니다. S1-Bench는 이러한 능력을 평가하기 위한 다양한 도메인과 언어에 걸쳐 단순하고 다양하며 자연스럽게 명확한 질문들을 제시하여 이러한 간극을 메웁니다. 22개의 LRM에 대한 포괄적인 평가 결과, 기존의 소규모 LLM보다 평균 15.5배 더 긴 출력을 생성하는 등 상당히 낮은 효율성 경향이 드러났습니다. 또한, LRM은 종종 정답을 일찍 찾지만 불필요한 숙고를 계속하며, 일부 모델은 여러 오류를 생성하기도 합니다. 이러한 결과는 현재 LRM의 경직된 추론 패턴을 강조하고, 과제의 복잡성에 따라 적절하게 적응할 수 있는 균형 잡힌 이중 시스템 사고 능력을 달성하기 위해 필요한 상당한 발전을 보여줍니다.