Qingyu Yin, Chak Tou Leong, Minjun Zhu, Hanqi Yan, Qiang Zhang, Yulan He, Wenjie Li, Jun Wang, Yue Zhang, Linyi Yang
개요
본 논문은 대규모 언어 모델(LLM)의 인간 선호도 정렬 문제를 해결하기 위해 새로운 방법인 특징 수준 제약 선호도 최적화(FPO)를 제안한다. 기존의 RLHF나 DPO와 달리 FPO는 사전 훈련된 희소 오토인코더(SAE)와 특징 수준 제약을 활용하여 계산 효율성과 안정성을 확보한다. 희소하게 활성화된 특징과 오프라인 참조를 이용한 순차적 KL 발산을 통해 효율성과 품질을 동시에 달성한다. 벤치마크 데이터셋 실험 결과, FPO는 기존 최고 성능 기법 대비 5.08%의 승률 향상과 훨씬 낮은 계산 비용을 달성하여 효율적이고 제어 가능한 LLM 정렬을 위한 유망한 해결책임을 보여준다.