Sign In

Cheating Automatic LLM Benchmarks: Null Models Achieve High Win Rates

Created by
  • Haebom
Category
Empty

저자

Xiaosen Zheng, Tianyu Pang, Chao Du, Qian Liu, Jing Jiang, Min Lin

개요

본 논문은 AlpacaEval 2.0, Arena-Hard-Auto, MT-Bench 와 같은 자동화된 LLM 벤치마크의 취약성을 보여줍니다. 입력과 무관하게 항상 동일한 응답을 출력하는 "null model" 이라는 단순한 모델을 사용하여, 해당 벤치마크에서 높은 승률을 달성할 수 있음을 실험적으로 증명합니다. AlpacaEval 2.0에서 86.5%의 승률, Arena-Hard-Auto에서 83.0점, MT-Bench에서 9.55점을 기록하였으며, 이는 벤치마크의 설계상의 취약점을 이용한 속임수임을 시사합니다. 이는 벤치마크의 질문 데이터에 접근하지 않고도 가능하며, 더욱 정교한 속임수를 통해 더욱 눈에 띄지 않게 벤치마크 결과를 조작할 수 있음을 의미합니다. 따라서, 신뢰할 수 있는 자동화된 벤치마크를 위해서는 속임수 방지 메커니즘의 개발이 시급합니다.

시사점, 한계점

시사점: 자동화된 LLM 벤치마크의 신뢰성에 대한 심각한 의문 제기. 현재의 자동화된 벤치마크 시스템이 조작에 취약함을 보여줌. 더욱 정교한 속임수 기법 개발의 가능성 제시. 안티-치팅 메커니즘 개발의 필요성 강조.
한계점: 본 연구는 주로 개념 증명에 집중. 더욱 정교하고 은밀한 속임수 기법에 대한 추가적인 연구 필요. 실제 악의적인 공격자의 행위를 완벽하게 반영하지 못할 수 있음.
👍