강화 학습 기반 언어 모델 정렬 방식(RLHF / RLAIF)은 단일 보상 모델(RM)에 의존하여 정렬 품질에 한계가 있으며 과적합의 위험이 있습니다. 본 논문은 RM 라우팅 기법을 통해 보완적인 강점을 활용하고 O(1) RM 호출을 유지하고자 합니다. 특히, 오프라인 RM 강점 학습과 온라인 베이시안 선택을 결합한 하이브리드 라우팅 프레임워크인 BayesianRouter를 제안합니다. BayesianRouter는 오프라인 단계에서 RM별 신뢰도를 추정하는 멀티태스크 라우터를 학습시키고, 온라인 단계에서 베이시안 톰슨 샘플링 라우터를 통해 쿼리별 RM을 선택합니다. BayesianRouter는 기존 RM, RM 앙상블, 라우팅 방식보다 우수한 성능을 보입니다.