Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Does Context Matter? ContextualJudgeBench for Evaluating LLM-based Judges in Contextual Settings

Created by
  • Haebom
Category
Empty

저자

Austin Xu, Srijan Bansal, Yifei Ming, Semih Yavuz, Shafiq Joty

개요

본 논문은 대규모 언어 모델(LLM)을 평가자로 활용하는 패러다임에 대해 다룹니다. 기존의 LLM 평가자 모델들은 주로 비문맥적 상황(예: 지시사항 따르기)에서만 평가되어 왔는데, 본 논문은 외부 정보를 활용하는 문맥적 상황(예: RAG, 요약)에서의 평가가 중요함을 지적합니다. 이를 위해, 다양한 실제 상황을 반영한 2,000개의 응답 쌍을 포함하는 문맥 평가 벤치마크인 ContextualJudgeBench를 제안합니다. 해당 벤치마크는 기존 인간 평가 및 모델 기반 섭동을 활용하여 구축되었으며, 11개의 평가자 모델과 9개의 일반 목적 모델을 이용한 실험 결과, 최첨단 모델조차도 문맥 정보와 조건부 평가 기준에 어려움을 겪는다는 것을 보여줍니다.

시사점, 한계점

시사점:
문맥적 상황에서의 LLM 평가 중요성을 강조하고, 이를 위한 새로운 벤치마크인 ContextualJudgeBench를 제시.
ContextualJudgeBench는 실제 상황을 반영한 다양한 평가 시나리오를 제공하여 LLM 평가의 객관성 및 신뢰도 향상에 기여.
최첨단 모델조차 문맥적 평가에 어려움을 겪는다는 것을 밝힘으로써 향후 연구 방향 제시.
한계점:
ContextualJudgeBench의 규모(2,000개 응답 쌍)가 충분히 크지 않을 수 있음.
다양한 유형의 문맥적 상황을 완벽하게 포괄하지 못할 가능성 존재.
인간 평가와 모델 기반 섭동을 결합한 데이터 구축 방식의 한계점 존재.
👍