# Quantifying and Mitigating Self-Preference Bias of LLM Judges

### 저자

Jinming Yang, Chuxian Qiu, Zhenyu Deng, Xinshan Jiao, Tao Zhou

### 💡 개요

본 논문은 대규모 언어 모델(LLM)이 자체 생성 결과물을 편향적으로 평가하는 '자체 선호도 편향(SPB)' 문제를 다룹니다. 기존 평가 방법의 한계를 극복하기 위해, 저자들은 인간의 개입 없이 자동으로 SPB를 측정하고 완화하는 프레임워크를 제안합니다. 이 연구는 LLM의 고급 기능과 SPB가 반드시 상관관계가 없음을 보여주며, 인지 부하 분해에 기반한 다차원 평가 전략을 통해 SPB를 평균 31.5% 감소시켰습니다.

### 🔑 시사점 및 한계

- LLM 기반 평가 시스템의 신뢰성을 높이기 위해 자체 선호도 편향(SPB)을 정량화하고 완화하는 것이 필수적입니다.

- 인간의 개입 없이도 SPB를 자동으로 측정하고 완화할 수 있는 실용적인 방법론이 제시되었습니다.

- LLM의 성능 향상이 반드시 SPB 감소로 이어지는 것은 아니며, 편향 완화를 위한 별도의 노력이 필요함을 시사합니다.

- 제안된 다차원 평가 전략의 일반화 가능성 및 다양한 LLM 아키텍처에 대한 효과 검증이 향후 과제로 남아있습니다.

---

[PDF 보기](https://arxiv.org/pdf/2604.22891)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
