Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Who Judges the Judge? LLM Jury-on-Demand: Building Trustworthy LLM Evaluation Systems

Created by
  • Haebom
Category
Empty

저자

Xiaochuan Li, Ke Wang, Girija Gouda, Shubham Choudhary, Yaqun Wang, Linwei Hu, Joel Vaughan, Freddy Lecue

개요

본 논문은 대규모 언어 모델(LLM)이 중요한 분야에 통합됨에 따라, 실시간 배포가 가능하고 중요한 의사 결정에 신뢰할 수 있는 평가 방법의 필요성에 주목한다. 인간 평가의 느리고 비용이 많이 드는 단점, 단일 LLM 평가자의 편향, 고정된 평가단의 적응성 부족 등의 한계를 극복하기 위해, 본 논문은 LLM Jury-on-Demand를 제안한다. 이는 확장 가능하고 상황 인지적인 평가를 위한 동적 학습 기반 프레임워크로, 토큰 분포, 임베딩, 구조적 입력 특징을 활용하여 LLM 평가자가 인간 전문가와 동의할 시기를 평가하는 신뢰도 예측기를 훈련한다. 이 방법은 각 데이터 포인트에 대해 가장 신뢰할 수 있는 평가자들로 구성된 최적의 평가단을 동적으로 선택하고, 신뢰도를 가중치로 사용하여 점수를 집계하는 완전 적응형 평가를 가능하게 한다. 요약 및 RAG 벤치마크 실험에서 동적 평가단 시스템이 단일 평가자 및 고정 평가단 기반보다 인간 판단과 유의미하게 더 높은 상관 관계를 달성함을 보여준다.

시사점, 한계점

시사점:
확장 가능하고 신뢰할 수 있는 LLM 평가 시스템 구축 가능성 제시
동적이고 적응적인 평가단 구성을 통해 기존 평가 방식의 한계 극복
요약 및 RAG 벤치마크에서 인간 판단과의 높은 상관관계 입증
한계점:
논문에 구체적인 한계점 언급 없음 (Abstract 내용에 한정)
👍