Exposing Weaknesses of Large Reasoning Models through Graph Algorithm Problems

Created by

Haebom

저자

Qifan Zhang, Jianhao Ruan, Aochuan Chen, Kang Zeng, Nuo Chen, Jing Tang, Jia Li

💡 개요

본 연구는 대규모 추론 모델(LRM)의 한계를 그래프 알고리즘 문제 해결 능력을 통해 평가하는 새로운 벤치마크인 GrAlgoBench를 제안합니다. GrAlgoBench는 기존 수학, 코드, 상식 추론 벤치마크의 한계점을 극복하고, 장기적 맥락 이해, 난이도 조절, 프로그래밍 가능한 검증 가능성을 제공합니다. 실험 결과, LRM은 맥락 길이가 길어질수록 정확도가 급격히 하락하며, 과도한 자기 검증으로 인해 추론 과정이 비효율적으로 길어지는 '과잉 사고' 현상을 보이는 두 가지 주요 약점을 드러냈습니다.

🔑 시사점 및 한계

•

LRM의 장기적 맥락 이해 능력 부족이 그래프 크기가 커질수록 50% 이하로 떨어지는 정확도 저하로 나타납니다.

•

LRM은 정확도 향상 없이 추론 과정을 불필요하게 늘리는 '과잉 사고' 및 비효율적인 자기 검증 문제를 겪습니다.

•

GrAlgoBench는 LRM의 추론 능력 평가를 위한 엄격하고 다차원적인 테스트베드를 제공하지만, 제시된 약점들을 개선하기 위한 LRM 아키텍처 및 학습 방법론 연구가 추가적으로 필요합니다.

PDF 보기

Made with Slashpage