Quantifying and Mitigating Self-Preference Bias of LLM Judges

Created by

Haebom

저자

Jinming Yang, Chuxian Qiu, Zhenyu Deng, Xinshan Jiao, Tao Zhou

💡 개요

본 논문은 대규모 언어 모델(LLM)이 자체 생성 결과물을 편향적으로 평가하는 '자체 선호도 편향(SPB)' 문제를 다룹니다. 기존 평가 방법의 한계를 극복하기 위해, 저자들은 인간의 개입 없이 자동으로 SPB를 측정하고 완화하는 프레임워크를 제안합니다. 이 연구는 LLM의 고급 기능과 SPB가 반드시 상관관계가 없음을 보여주며, 인지 부하 분해에 기반한 다차원 평가 전략을 통해 SPB를 평균 31.5% 감소시켰습니다.

🔑 시사점 및 한계

•

LLM 기반 평가 시스템의 신뢰성을 높이기 위해 자체 선호도 편향(SPB)을 정량화하고 완화하는 것이 필수적입니다.

•

인간의 개입 없이도 SPB를 자동으로 측정하고 완화할 수 있는 실용적인 방법론이 제시되었습니다.

•

LLM의 성능 향상이 반드시 SPB 감소로 이어지는 것은 아니며, 편향 완화를 위한 별도의 노력이 필요함을 시사합니다.

•

제안된 다차원 평가 전략의 일반화 가능성 및 다양한 LLM 아키텍처에 대한 효과 검증이 향후 과제로 남아있습니다.

PDF 보기

Made with Slashpage