Shivalika Singh, Yiyang Nan, Alex Wang, Daniel D'Souza, Sayash Kapoor, Ahmet Ustun, Sanmi Koyejo, Yuntian Deng, Shayne Longpre, Noah A. Smith, Beyza Ermis, Marzieh Fadaee, Sara Hooker
개요
본 논문은 Chatbot Arena의 순위 시스템이 내재적인 문제점으로 인해 왜곡된 경쟁 환경을 조성하고 있음을 밝힙니다. 특히 일부 제공업체들이 비공개 테스트를 통해 여러 변종을 테스트하고, 원하는 점수만 공개하는 등의 행위로 인해 편향된 결과가 생성된다는 것을 지적합니다. Meta의 Llama-4 출시 전 27개의 비공개 LLM 변종 테스트 사례를 예시로 들며, 독점 모델이 공개 모델보다 더 많은 배틀을 치르고 제거될 확률이 낮다는 점을 강조합니다. 이러한 불균형적인 데이터 접근으로 Google과 OpenAI와 같은 대기업이 Arena 데이터의 상당 부분을 독점하고 있으며, 이는 Arena 특화 과적합을 야기하고 실제 모델 성능과의 괴리를 심화시킨다고 주장합니다. 결론적으로 Chatbot Arena의 평가 프레임워크 개혁을 위한 실행 가능한 권장 사항을 제시합니다.
시사점, 한계점
•
시사점:
◦
Chatbot Arena의 순위 시스템의 편향성과 불투명성을 폭로함으로써 AI 모델 평가의 공정성 문제를 제기합니다.
◦
비공개 테스트 및 선택적 점수 공개가 AI 모델 순위에 미치는 영향을 정량적으로 분석합니다.