Benchmarking Reasoning Robustness in Large Language Models
Created by
Haebom
Category
Empty
저자
Tong Yu, Yongcheng Jing, Xikun Zhang, Wentao Jiang, Wenjie Wu, Yingjie Wang, Wenbin Hu, Bo Du, Dacheng Tao
개요
본 논문은 최근 큰 언어 모델(LLM)의 추론 능력 향상에도 불구하고, 새로운 또는 불완전한 데이터에 대한 성능 저하 문제를 규명합니다. 이는 LLM이 체계적인 추론보다는 기억된 패턴에 의존하고 있음을 시사합니다. 논문에서는 이 문제의 근본 원인으로 위치 편향, 지시 사항 민감도, 수치적 취약성, 기억 의존성 등 네 가지 제한점을 제시합니다. 이러한 제한점을 포괄적으로 조사하기 위해, 누락된 정보로 인해 발생하는 환각을 이용하여 추론의 허점을 드러내는 새로운 벤치마크인 Math-RoB를 제안합니다. Math-RoB는 지시어 기반 접근 방식을 통해 훈련 데이터 분포와 유사한 다양한 데이터셋을 생성하여, LLM의 추론 강건성을 종합적으로 평가하고 더욱 강건한 추론 프레임워크 개발을 촉진합니다.
시사점, 한계점
•
시사점:
◦
LLM의 추론 능력에 대한 새로운 제한점(위치 편향, 지시 사항 민감도, 수치적 취약성, 기억 의존성)을 밝힘.
◦
LLM의 추론 강건성 평가를 위한 새로운 벤치마크(Math-RoB) 제시.
◦
LLM의 추론 메커니즘에 대한 이해 증진 및 더욱 강건한 추론 프레임워크 개발을 위한 방향 제시.