Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Generalised Probabilistic Modelling and Improved Uncertainty Estimation in Comparative LLM-as-a-judge

Created by
  • Haebom

저자

Yassir Fathullah, Mark J. F. Gales

개요

본 논문은 비교 LLM-as-a-judge 프레임워크에서 일반화된 확률적 모델링 및 불확실성 추정을 탐구합니다. 기존의 Product-of-Experts 방법이 더 넓은 프레임워크의 특정 사례임을 보여주고, 다양한 모델링 옵션을 가능하게 합니다. 개별 비교에 대한 향상된 불확실성 추정을 제안하여 더 효율적인 선택을 가능하게 하고, 더 적은 평가로 강력한 성능을 달성합니다. 또한 전체 순위 불확실성을 추정하는 방법을 제시합니다. 마지막으로 절대 및 비교 점수를 결합하면 성능이 향상됨을 보여줍니다. 실험 결과, 특정 전문가 모델은 최종 순위에 미치는 영향이 제한적이지만 제안된 불확실성 추정, 특히 재정렬 확률은 시스템의 효율성을 크게 향상시켜 필요한 비교 횟수를 약 50% 줄입니다. 또한 순위 수준의 불확실성 지표를 사용하여 성능이 저조한 예측을 식별할 수 있으며, 여기서 확률적 모델의 특성이 전반적인 불확실성의 질에 상당한 영향을 미칩니다.

시사점, 한계점

시사점:
기존 Product-of-Experts 방법을 일반화하는 넓은 프레임워크 제시
개별 비교 및 전체 순위에 대한 향상된 불확실성 추정 방법 제안
불확실성 추정을 통한 비교 횟수 감소 (약 50%) 및 효율성 증대
절대 및 비교 점수 결합을 통한 성능 향상
순위 수준 불확실성 지표를 활용한 저성능 예측 식별 가능
한계점:
특정 전문가 모델의 최종 순위에 대한 영향은 제한적임
확률적 모델의 특성이 전반적인 불확실성의 질에 미치는 영향에 대한 추가 연구 필요
👍