Sign In

Investigating Non-Transitivity in LLM-as-a-Judge

Created by
  • Haebom
Category
Empty

저자

Yi Xu, Laura Ruis, Tim Rocktaschel, Robert Kirk

개요

본 논문은 대규모 언어 모델(LLM) 기반 에이전트의 지시사항 따르기 능력 평가에 사용되는 자동 평가 방법, 특히 짝 비교 방식의 한계점을 다룹니다. 짝 비교 방식은 전이적 선호도를 가정하지만, 이 가정의 타당성은 충분히 탐구되지 않았습니다. 연구진은 AlpacaEval 프레임워크 내에서 비전이적 선호도의 존재를 조사하고 모델 순위에 미치는 영향을 분석했습니다. LLM 판정자의 비전이적 선호도로 인해 기준 모델 선택에 따라 순위가 민감하게 변하는 것을 발견하고, 이 문제를 완화하기 위해 라운드 로빈 토너먼트와 Bradley-Terry 선호도 모델을 결합한 방법을 제시합니다. 이 방법은 Chatbot Arena와의 Spearman 상관 계수와 Kendall 상관 계수를 모두 향상시켰습니다 (각각 95.0% -> 96.4%, 82.1% -> 86.3%). 또한, 라운드 로빈 토너먼트의 계산 비용을 줄이기 위해 동적 매칭 전략을 사용하는 Swiss-Wise Iterative Matchmaking (Swim) 토너먼트를 제안했습니다.

시사점, 한계점

시사점:
LLM 기반 자동 평가에서 비전이적 선호도 문제를 밝히고, 그 영향을 분석했습니다.
라운드 로빈 토너먼트와 Bradley-Terry 모델을 결합하여 더욱 신뢰할 수 있는 모델 순위를 생성하는 방법을 제시했습니다.
계산 효율성을 높이는 Swim 토너먼트를 제안했습니다.
기존 방법보다 향상된 상관 계수를 달성했습니다.
한계점:
Swim 토너먼트의 성능이 다양한 규모의 모델 평가에서 일관되게 우수한지 추가적인 연구가 필요합니다.
Bradley-Terry 모델의 가정이 모든 상황에 적용 가능한지에 대한 추가적인 검증이 필요합니다.
다른 자동 평가 프레임워크에서도 비전이적 선호도 문제가 발생하는지에 대한 추가 연구가 필요합니다.
👍