MapReduce LoRA: Advancing the Pareto Front in Multi-Preference Optimization for Generative Models
Created by
Haebom
Category
Empty
저자
Chieh-Yun Chen, Zhonghao Wang, Qi Chen, Zhifan Ye, Min Shi, Yue Zhao, Yinan Zhao, Hui Qu, Wei-An Lin, Yiru Shen, Ajinkya Kale, Irfan Essa, Humphrey Shi
개요
본 논문은 인간의 미적 및 지각적 선호도에 맞춰 생성 모델의 정렬을 향상시키는 데 초점을 맞춘 연구를 제시합니다. 여러 보상을 공동으로 최적화할 때 발생하는 정렬 세금 문제를 해결하기 위해, MapReduce LoRA와 Reward-aware Token Embedding (RaTE) 두 가지 방법을 제안합니다. MapReduce LoRA는 선호도별 LoRA 전문가를 병렬로 훈련하고 반복적으로 병합하여 공유 기반 모델을 개선하며, RaTE는 유연한 선호도 제어를 위해 추론 시 결합되는 보상별 토큰 임베딩을 학습합니다. 텍스트-이미지 생성, 텍스트-비디오 생성 및 언어 작업에서 제안된 방법론의 성능 향상을 실험을 통해 입증했습니다.
시사점, 한계점
•
시사점:
◦
다중 선호도 정렬 문제를 해결하기 위한 혁신적인 방법론(MapReduce LoRA 및 RaTE) 제안.