Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Benchmarking Large Language Models via Random Variables

Created by
  • Haebom
Category
Empty

저자

Zijin Hong, Hao Wu, Su Dong, Junnan Dong, Yilin Xiao, Yujing Zhang, Zhu Wang, Feiran Huang, Linyi Li, Hongxia Yang, Xiao Huang

개요

본 논문은 기존 수학 벤치마크의 신뢰성 문제(단순한 설계 및 데이터 오염)를 지적하고, 대규모 언어 모델(LLM)의 수학적 추론 능력을 효과적으로 평가하는 새로운 벤치마크인 RV-Bench를 제안합니다. RV-Bench는 임의 변수를 사용하여 기존 문제의 변수 조합을 무작위로 변경함으로써 LLM이 학습 데이터에서 보지 못한 "unseen" 문제를 생성합니다. LLM이 다양한 변수 값을 가진 RV 문제에 정확하게 답변하려면 문제 패턴에 대한 완전한 이해가 필요하며, 이를 통해 LLM의 진정한 수학적 추론 능력을 평가할 수 있습니다. 30개 이상의 LLM과 1000개 이상의 RV 문제를 사용한 실험 결과, LLM은 익숙한 데이터와 "unseen" 데이터 영역에서의 능력에 불균형을 보이며, 유사한 수학적 추론 과제에 대한 숙련도 일반화는 정확도와 강건성에 의해 제한되지만, 테스트 시간 스케일링을 통해 향상될 수 있음을 보여줍니다.

시사점, 한계점

시사점:
기존 수학 벤치마크의 한계를 극복하고 LLM의 진정한 수학적 추론 능력을 평가할 수 있는 새로운 벤치마크(RV-Bench) 제시.
LLM의 익숙한 데이터와 "unseen" 데이터 영역에서의 능력 불균형을 밝힘.
테스트 시간 스케일링을 통한 LLM의 수학적 추론 능력 향상 가능성 제시.
한계점:
RV-Bench가 모든 유형의 수학적 추론 문제를 포괄적으로 다루는지에 대한 추가 검증 필요.
테스트 시간 스케일링의 효과를 더욱 심층적으로 분석할 필요.
RV-Bench의 확장성 및 다른 도메인으로의 적용 가능성에 대한 추가 연구 필요.
👍