본 논문은 인간의 선호도에 맞춰 언어 모델을 정렬하는 과정에서 발생하는 계산 비용 증가 및 확장성 문제를 해결하기 위해, 훈련이 필요 없는 새로운 개인화된 정렬 방식인 Persona-judge를 제안합니다. Persona-judge는 외부 보상 신호나 추가 주석 데이터에 의존하지 않고, 모델의 내재적 선호도 판단 능력을 활용합니다. 초안 모델이 특정 선호도를 조건으로 토큰을 생성하고, 다른 선호도를 가진 판단 모델이 생성된 토큰을 검증하는 방식으로 작동합니다. 실험 결과, Persona-judge는 확장 가능하고 계산 효율적인 개인화된 정렬 솔루션임을 보여줍니다.