Sign In

The Leaderboard Illusion

Created by
  • Haebom
Category
Empty

저자

Shivalika Singh, Yiyang Nan, Alex Wang, Daniel D'Souza, Sayash Kapoor, Ahmet Ustun, Sanmi Koyejo, Yuntian Deng, Shayne Longpre, Noah Smith, Beyza Ermis, Marzieh Fadaee, Sara Hooker

개요

본 논문은 Chatbot Arena의 벤치마킹 시스템에 존재하는 체계적인 문제점들을 밝히고 있다. 특히, 일부 제공업체들이 비공개 테스트를 통해 여러 변형 모델을 테스트하고 원하는 점수만 공개하거나 점수를 철회하는 등의 행위로 인해 객관적인 순위가 왜곡되고 있음을 지적한다. Meta의 Llama-4 출시를 앞두고 27개의 비공개 LLM 변형 모델을 테스트한 사례를 예로 들며, 독점 모델이 공개 모델보다 더 많은 배틀 횟수를 가지고 제거될 확률도 낮다는 점을 강조한다. 이러한 불균형적인 데이터 접근으로 Google과 OpenAI와 같은 대기업이 전체 데이터의 상당 부분을 차지하고, 소규모 개발자들은 불리한 환경에 놓여 있다는 것을 보여준다. 나아가 Chatbot Arena 데이터 접근이 성능 향상에 큰 영향을 미치며, 이로 인해 일반적인 모델 성능보다는 Arena 특유의 역학에 과적합되는 문제가 발생한다고 주장한다. 결론적으로, Chatbot Arena의 평가 프레임워크 개혁을 위한 실행 가능한 권고안을 제시한다.

시사점, 한계점

시사점:
Chatbot Arena와 같은 벤치마킹 시스템의 투명성 및 공정성 확보의 중요성 강조.
비공개 테스트 및 선택적 결과 공개로 인한 벤치마킹 결과 왜곡 문제 제기.
데이터 접근의 불균형이 모델 성능 평가에 미치는 영향 분석.
벤치마킹 시스템 개선을 위한 구체적인 권고안 제시.
AI 모델 평가의 공정성 확보를 위한 새로운 접근 방식 모색 필요성 제기.
한계점:
본 연구에서 제시된 권고안의 실효성 검증 부족.
다른 벤치마킹 시스템에도 유사한 문제가 존재할 가능성에 대한 고려 부족.
Chatbot Arena 데이터 접근의 불균형 외 다른 요인에 대한 분석 부족.
제공업체의 비협조로 인한 데이터 수집의 한계.
👍