Sign In

Benchmarking Reasoning Robustness in Large Language Models

Created by
  • Haebom
Category
Empty

저자

Tong Yu, Yongcheng Jing, Xikun Zhang, Wentao Jiang, Wenjie Wu, Yingjie Wang, Wenbin Hu, Bo Du, Dacheng Tao

개요

본 논문은 최근 큰 언어 모델(LLM)의 추론 능력 향상에도 불구하고, 새로운 또는 불완전한 데이터에 대한 성능 저하 문제를 규명합니다. 이는 LLM이 체계적인 추론보다는 기억된 패턴에 의존하고 있음을 시사합니다. 논문에서는 이 문제의 근본 원인으로 위치 편향, 지시 사항 민감도, 수치적 취약성, 기억 의존성 등 네 가지 제한점을 제시합니다. 이러한 제한점을 포괄적으로 조사하기 위해, 누락된 정보로 인해 발생하는 환각을 이용하여 추론의 허점을 드러내는 새로운 벤치마크인 Math-RoB를 제안합니다. Math-RoB는 지시어 기반 접근 방식을 통해 훈련 데이터 분포와 유사한 다양한 데이터셋을 생성하여, LLM의 추론 강건성을 종합적으로 평가하고 더욱 강건한 추론 프레임워크 개발을 촉진합니다.

시사점, 한계점

시사점:
LLM의 추론 능력에 대한 새로운 제한점(위치 편향, 지시 사항 민감도, 수치적 취약성, 기억 의존성)을 밝힘.
LLM의 추론 강건성 평가를 위한 새로운 벤치마크(Math-RoB) 제시.
LLM의 추론 메커니즘에 대한 이해 증진 및 더욱 강건한 추론 프레임워크 개발을 위한 방향 제시.
한계점:
Math-RoB 벤치마크의 일반화 성능에 대한 추가적인 검증 필요.
제시된 네 가지 제한점 외에 다른 제한점 존재 가능성.
제안된 해결 방안의 구체적인 내용 부족.
👍