Recitation over Reasoning: How Cutting-Edge Language Models Can Fail on Elementary School-Level Reasoning Problems?
Created by
Haebom
저자
Kai Yan, Yufei Xu, Zhengyin Du, Xuesong Yao, Zheyu Wang, Xiaowen Guo, Jiecao Chen
개요
본 논문은 최근 LLM 벤치마크의 난이도가 초등학교 수준에서 첨단 문제까지 급격히 상승함에 따라 인간의 지능을 능가하는 시점에 임박했다는 연구자들의 낙관적 전망에 의문을 제기합니다. LLM의 놀라운 추론 능력이 진정한 지능에서 비롯되는지, 아니면 단순히 인터넷 수준의 훈련 데이터에서 목격한 해결책을 반복하는 것인지 연구하기 위해, 조건을 미묘하게 변경하여 간단한 추론 문제에 대한 LLM의 암기 행동을 감지하는 새로운 다중 모드 벤치마크인 RoR-Bench를 제안하고 실증 분석을 수행합니다. 실험 결과, 최첨단 LLM들이 극심한 암기 행동을 보이는 것을 발견했습니다. 조건에서 한 문구만 변경해도 OpenAI-o1 및 DeepSeek-R1과 같은 최고 모델의 초등학교 수준 산술 및 추론 문제 해결 능력이 60%나 저하되었습니다. 이러한 결과는 최첨단 LLM의 진정한 지능 수준을 재평가해야 함을 시사하는 경종입니다.
시사점, 한계점
•
시사점: 최첨단 LLM의 추론 능력에 대한 과도한 낙관론에 대한 경고를 제시합니다. LLM이 단순히 암기 기반으로 문제를 해결할 수 있다는 것을 보여주는 실험 결과는 LLM의 지능 수준에 대한 재평가의 필요성을 강조합니다. RoR-Bench는 LLM의 암기 행동을 탐지하고 진정한 추론 능력을 평가하는 데 유용한 벤치마크로 활용될 수 있습니다.
•
한계점: RoR-Bench가 특정 유형의 문제와 미묘한 조건 변경에만 집중되어 있어 LLM의 전반적인 추론 능력을 완전히 평가하는 데 한계가 있을 수 있습니다. 다양한 유형의 문제와 더 광범위한 조건 변화에 대한 추가 연구가 필요합니다. 또한, 벤치마크의 설계 및 평가 과정에 대한 자세한 설명이 부족하여 재현성과 일반화 가능성에 대한 검증이 필요합니다.