Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Reward Model Routing in Alignment

Created by
  • Haebom

저자

Xinle Wu, Yao Lu

개요

강화 학습 기반 언어 모델 정렬 방식(RLHF / RLAIF)은 단일 보상 모델(RM)에 의존하여 정렬 품질에 한계가 있으며 과적합의 위험이 있습니다. 본 논문은 RM 라우팅 기법을 통해 보완적인 강점을 활용하고 O(1) RM 호출을 유지하고자 합니다. 특히, 오프라인 RM 강점 학습과 온라인 베이시안 선택을 결합한 하이브리드 라우팅 프레임워크인 BayesianRouter를 제안합니다. BayesianRouter는 오프라인 단계에서 RM별 신뢰도를 추정하는 멀티태스크 라우터를 학습시키고, 온라인 단계에서 베이시안 톰슨 샘플링 라우터를 통해 쿼리별 RM을 선택합니다. BayesianRouter는 기존 RM, RM 앙상블, 라우팅 방식보다 우수한 성능을 보입니다.

시사점, 한계점

시사점:
BayesianRouter는 단일 RM의 한계를 극복하고 다양한 RM의 장점을 활용하여 언어 모델의 정렬 성능을 향상시켰습니다.
오프라인 학습과 온라인 학습을 결합하여 RM 선택의 효율성과 적응성을 높였습니다.
다양한 벤치마크에서 기존 방법들을 능가하는 성능을 입증했습니다.
한계점:
구체적인 RM의 수, 종류, 학습 과정에 대한 자세한 정보가 부족합니다.
베이시안 톰슨 샘플링의 하이퍼파라미터 설정에 따른 성능 변화에 대한 분석이 필요합니다.
계산 비용 및 복잡성 증가 가능성에 대한 논의가 필요합니다.
👍