# Leveraging LLMs as Meta-Judges: A Multi-Agent Framework for Evaluating LLM Judgments

### 저자

Yuran Li, Jama Hussein Mohamud, Chongren Sun, Di Wu, Benoit Boulet

### 개요

본 논문은 대규모 언어 모델(LLM)을 이용한 성능 평가의 효율성을 높이기 위해, 기존 연구의 한계점인 인간 평가자의 편향과 실수, 그리고 다수의 LLM 응답 중 적절한 응답 선택 문제를 해결하는 세 단계 메타 판정자 선택 파이프라인을 제안합니다.  GPT-4와 인간 전문가를 활용하여 포괄적인 평가 기준을 개발하고, 세 개의 고급 LLM 에이전트를 사용하여 판정 점수를 매기며, 임계값을 적용하여 낮은 점수의 판정을 걸러내는 방식입니다. JudgeBench 데이터셋을 이용한 실험 결과, 기존 단일 LLM 기반 방법 대비 약 8.37%, 원시 판정 대비 약 15.55% 향상된 성능을 보였습니다.  이는 LLM을 메타 판정자로 활용하는 잠재력을 보여주며, LLM 기반 강화 학습을 위한 선호도 데이터셋 구축 연구의 기반을 마련합니다.

### 시사점, 한계점

- **시사점:**

    - LLM을 메타 판정자로 활용하여 LLM 성능 평가의 효율성을 높일 수 있는 새로운 방법 제시.

    - 다중 LLM 에이전트 협업과 포괄적인 평가 기준을 통해 기존 단일 LLM 기반 방법보다 향상된 성능 달성.

    - LLM 기반 강화 학습을 위한 선호도 데이터셋 구축 연구에 기여.

    - 인간 평가자의 편향과 실수를 줄일 수 있는 잠재력 제시.

- **한계점:**

    - 제안된 파이프라인의 성능 향상은 특정 데이터셋(JudgeBench)에 국한될 수 있음.

    - GPT-4와 인간 전문가를 활용한 평가 기준 개발 과정의 자세한 설명 부족.

    - 사용된 LLM 에이전트의 구체적인 종류와 매개변수 설정에 대한 정보 부족.

    - 임계값 설정에 대한 명확한 기준 제시 부족.

    - 다른 유형의 평가 과제에 대한 일반화 가능성에 대한 추가 연구 필요.

[PDF 보기](https://arxiv.org/pdf/2504.17087)

![https://i.imgur.com/qwh2Qj4.jpeg](https://i.imgur.com/qwh2Qj4.jpeg)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).