본 논문은 AlpacaEval 2.0, Arena-Hard-Auto, MT-Bench 와 같은 자동화된 LLM 벤치마크의 취약성을 보여줍니다. 입력과 무관하게 항상 동일한 응답을 출력하는 "null model" 이라는 단순한 모델을 사용하여, 해당 벤치마크에서 높은 승률을 달성할 수 있음을 실험적으로 증명합니다. AlpacaEval 2.0에서 86.5%의 승률, Arena-Hard-Auto에서 83.0점, MT-Bench에서 9.55점을 기록하였으며, 이는 벤치마크의 설계상의 취약점을 이용한 속임수임을 시사합니다. 이는 벤치마크의 질문 데이터에 접근하지 않고도 가능하며, 더욱 정교한 속임수를 통해 더욱 눈에 띄지 않게 벤치마크 결과를 조작할 수 있음을 의미합니다. 따라서, 신뢰할 수 있는 자동화된 벤치마크를 위해서는 속임수 방지 메커니즘의 개발이 시급합니다.