Recitation over Reasoning: How Cutting-Edge Language Models Can Fail on Elementary School-Level Reasoning Problems?
Created by
Haebom
저자
Kai Yan, Yufei Xu, Zhengyin Du, Xuesong Yao, Zheyu Wang, Xiaowen Guo, Jiecao Chen
개요
본 논문은 최근 LLM 벤치마크의 난이도가 초등학생 수준에서 최첨단 문제까지 급격히 상승함에 따라 인간 지능을 뛰어넘는 시점이 임박했다는 연구자들의 낙관적인 전망에 의문을 제기합니다. LLM의 놀라운 추론 능력이 진정한 지능에서 비롯되는지, 아니면 단순히 인터넷 수준의 훈련 데이터에서 목격한 해결책을 반복하는 것인지 연구하기 위해, 조건을 미묘하게 변경한 간단한 추론 문제에 대한 LLM의 암기 행동을 감지하는 새로운 다중 모드 벤치마크인 RoR-Bench를 제안하고 실증 분석을 수행합니다.
시사점, 한계점
•
시사점: 최첨단 LLM들이 초등 수준의 산술 및 추론 문제에서도 조건의 한 문장 변경으로 60%의 성능 저하를 보이는 등 심각한 암기 행동을 보임을 밝혔습니다. 이는 LLM의 진정한 지능 수준을 재평가해야 함을 시사합니다. LLM의 성능 평가 방식에 대한 재고를 촉구합니다.
•
한계점: RoR-Bench가 특정 유형의 문제에 집중되어 있으므로, LLM의 전반적인 지능 수준을 평가하는 데 한계가 있을 수 있습니다. 다양한 유형의 문제와 더욱 광범위한 데이터셋을 사용한 추가 연구가 필요합니다.