Sign In

Approximating Human Preferences Using a Multi-Judge Learned System

Created by
  • Haebom
Category
Empty

저자

Eitan Sprejer, Fernando Avalos, Augusto Bernardi, Jose Pedro Brito de Azevedo Faustino, Jacob Haimes, Narmeen Fatimah Oozeer

개요

LLM 기반 심사자의 인간 선호도 정렬은 어려운 과제이며, 보정의 어려움, 채점 기준 민감도, 편향, 불안정성 등의 문제점을 가지고 있다. 본 논문에서는 여러 채점 기준에 따라 조건화된 심사자들의 출력을 집계하여 다양하고, 페르소나 기반의 선호도를 모델링하는 프레임워크를 제안한다. 본 연구는 이 접근 방식의 성능을 단순한 기준선(baseline)과 비교하고, 인간 및 LLM 심사자의 편향에 대한 사례 연구를 통해 견고성을 평가한다. 주요 기여는 대규모 선호도 레이블을 합성하기 위한 페르소나 기반 방법과, Generalized Additive Model (GAM) 및 Multi-Layer Perceptron (MLP)의 두 가지 집계자 구현이다.

시사점, 한계점

시사점:
다양한 페르소나 기반 선호도를 모델링하는 프레임워크 제안.
RLHF를 위한 신뢰할 수 있는 보상 모델 생성, 효율적인 라우팅 시스템 구축에 기여.
GAM 및 MLP 기반의 집계자 구현 제시.
한계점:
논문 내용에 구체적인 한계점 언급 없음.
👍