LLM 기반 심사자의 인간 선호도 정렬은 어려운 과제이며, 보정의 어려움, 채점 기준 민감도, 편향, 불안정성 등의 문제점을 가지고 있다. 본 논문에서는 여러 채점 기준에 따라 조건화된 심사자들의 출력을 집계하여 다양하고, 페르소나 기반의 선호도를 모델링하는 프레임워크를 제안한다. 본 연구는 이 접근 방식의 성능을 단순한 기준선(baseline)과 비교하고, 인간 및 LLM 심사자의 편향에 대한 사례 연구를 통해 견고성을 평가한다. 주요 기여는 대규모 선호도 레이블을 합성하기 위한 페르소나 기반 방법과, Generalized Additive Model (GAM) 및 Multi-Layer Perceptron (MLP)의 두 가지 집계자 구현이다.