본 논문은 다양한 인간의 선호도에 부합하도록 기초 모델을 조정하는 데 필수적인 대규모 언어 모델(LLM)의 다중 목표 정렬을 위한 새로운 방법인 MOSLIM을 제시합니다. MOSLIM은 여러 정책이나 여러 보상 모델 대신 단일 보상 모델과 정책 모델을 사용하여 다양한 목표를 다룹니다. 프롬프팅을 통해 이러한 목표를 유연하게 제어할 수 있으며, SFT 단계에서 선호도 학습이 필요하지 않아 수천 개의 기성 모델을 직접 활용할 수 있습니다. 질문-답변 쌍을 점수 매기는 대신 분류하는 다중 헤드 보상 모델을 활용하고, 보상 모델의 분류 결과를 보상 점수로 변환하는 매핑 함수에서 파생된 스칼라 보상으로 정책 모델을 최적화합니다. 여러 다중 목표 벤치마크에서 효과를 보여주고 다양한 보상 모델 크기와 정책 최적화 방법에 대한 ablation 연구를 수행합니다. 기존 정책 최적화 방법과 비교하여 훨씬 적은 GPU 컴퓨팅 리소스를 사용하면서 대부분의 결과에서 기존의 다중 목표 접근 방식보다 성능이 우수합니다.