Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Distribution-Calibrated Inference time compute for Thinking LLM-as-a-Judge

Created by
  • Haebom
Category
Empty

저자

Hamid Dadkhahi, Firas Trabelsi, Parker Riley, Juraj Juraska, Mehdi Mirzazadeh

개요

본 논문은 pairwise 선호도 평가를 위한 대규모 언어 모델(LLM)을 심사위원으로 사용할 때 발생하는 노이즈 문제를 해결하고, 세 가지 선호도(선호, 비선호, 동점)를 고려한 평가 방식을 제안합니다. 특히, 평가 시 계산량(ITC)을 효과적으로 활용하고, 브래들리-테리-데이비슨(Bradley-Terry-Davidson) 공식을 사용하여 평가 결과를 집계하는 방법을 제시합니다. 이를 통해 기존 방식보다 정확도를 향상시키고, 인간 평가자의 수준에 근접하는 결과를 얻었습니다.

시사점, 한계점

시사점:
LLM 기반 평가에서 ITC의 효율적 할당과 신중한 집계 방식을 통해 단일 샘플의 노이즈 문제를 해결할 수 있음을 입증.
세 가지 선호도를 고려한 평가 방식은 보다 현실적인 평가 결과를 제공.
제안된 방법은 다양한 평가 벤치마크에서 기존 방식 대비 향상된 성능을 보임.
인간 평가자와 유사하거나 더 나은 성능을 달성하여 LLM의 평가 능력을 입증.
한계점:
본 논문에서 제안하는 방식의 일반화 가능성 및 다른 LLM 모델에 대한 적용 가능성에 대한 추가 연구 필요.
계산량(ITC) 할당에 대한 최적화 전략에 대한 추가 연구 필요.
세 가지 선호도 평가 방식이 특정 데이터셋이나 평가 환경에 편향될 가능성 존재.
👍