Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MOSLIM:Align with diverse preferences in prompts through reward classification

Created by
  • Haebom

저자

Yu Zhang, Wanli Jiang, Zhengyu Yang

개요

본 논문은 다양한 인간의 선호도에 부합하도록 기초 모델을 조정하는 데 필수적인 대규모 언어 모델(LLM)의 다중 목표 정렬을 위한 새로운 방법인 MOSLIM을 제시합니다. MOSLIM은 여러 정책이나 여러 보상 모델 대신 단일 보상 모델과 정책 모델을 사용하여 다양한 목표를 다룹니다. 프롬프팅을 통해 이러한 목표를 유연하게 제어할 수 있으며, SFT 단계에서 선호도 학습이 필요하지 않아 수천 개의 기성 모델을 직접 활용할 수 있습니다. 질문-답변 쌍을 점수 매기는 대신 분류하는 다중 헤드 보상 모델을 활용하고, 보상 모델의 분류 결과를 보상 점수로 변환하는 매핑 함수에서 파생된 스칼라 보상으로 정책 모델을 최적화합니다. 여러 다중 목표 벤치마크에서 효과를 보여주고 다양한 보상 모델 크기와 정책 최적화 방법에 대한 ablation 연구를 수행합니다. 기존 정책 최적화 방법과 비교하여 훨씬 적은 GPU 컴퓨팅 리소스를 사용하면서 대부분의 결과에서 기존의 다중 목표 접근 방식보다 성능이 우수합니다.

시사점, 한계점

시사점:
단일 보상 모델과 정책 모델을 사용하여 다양한 목표를 효율적으로 달성하는 새로운 다중 목표 정렬 방법(MOSLIM) 제시.
SFT 단계에서 선호도 학습이 필요 없어 기존 모델들을 효과적으로 활용 가능.
프롬프팅을 통한 유연한 목표 제어 가능.
기존 방법 대비 적은 GPU 리소스 사용으로 효율성 증대.
여러 벤치마크에서 기존 방법보다 우수한 성능을 입증.
한계점:
본 논문에서 제시된 벤치마크의 일반화 가능성에 대한 추가적인 검증 필요.
매핑 함수의 설계 및 최적화에 대한 자세한 설명 부족.
다양한 유형의 LLM 및 다양한 규모의 데이터셋에 대한 성능 평가 추가 필요.
👍