Shivalika Singh, Yiyang Nan, Alex Wang, Daniel D'Souza, Sayash Kapoor, Ahmet Ustun, Sanmi Koyejo, Yuntian Deng, Shayne Longpre, Noah Smith, Beyza Ermis, Marzieh Fadaee, Sara Hooker
개요
본 논문은 Chatbot Arena의 벤치마킹 시스템에 존재하는 체계적인 문제점들을 밝히고 있다. 특히, 일부 제공업체들이 비공개 테스트를 통해 여러 변형 모델을 테스트하고 원하는 점수만 공개하거나 점수를 철회하는 등의 행위로 인해 객관적인 순위가 왜곡되고 있음을 지적한다. Meta의 Llama-4 출시를 앞두고 27개의 비공개 LLM 변형 모델을 테스트한 사례를 예로 들며, 독점 모델이 공개 모델보다 더 많은 배틀 횟수를 가지고 제거될 확률도 낮다는 점을 강조한다. 이러한 불균형적인 데이터 접근으로 Google과 OpenAI와 같은 대기업이 전체 데이터의 상당 부분을 차지하고, 소규모 개발자들은 불리한 환경에 놓여 있다는 것을 보여준다. 나아가 Chatbot Arena 데이터 접근이 성능 향상에 큰 영향을 미치며, 이로 인해 일반적인 모델 성능보다는 Arena 특유의 역학에 과적합되는 문제가 발생한다고 주장한다. 결론적으로, Chatbot Arena의 평가 프레임워크 개혁을 위한 실행 가능한 권고안을 제시한다.