Sign In

RePO: ReLU-based Preference Optimization

Created by
  • Haebom
Category
Empty

저자

Junkang Wu, Kexin Huang, Xue Wang, Jinyang Gao, Bolin Ding, Jiancan Wu, Xiangnan He, Xiang Wang

개요

본 논문은 대규모 언어 모델(LLM)을 인간의 선호도에 맞추는 문제를 다룬다. 기존의 강화학습 기반 선호도 조정(RLHF) 방법은 계산 비용과 안정성 문제를 가지고 있으며, 단일 하이퍼파라미터 β를 사용하는 DPO는 이러한 문제를 해결하기 위한 시도였으나, SimPO는 이중 하이퍼파라미터(β, γ)를 사용하며 복잡성을 다시 도입했다. 본 논문에서는 ReLU 기반 선호도 최적화(RePO) 알고리즘을 제안한다. RePO는 기울기 분석을 통해 β를 제거하고, ReLU 기반 최대 마진 손실 함수를 사용하여 사소한 쌍을 자연스럽게 필터링함으로써 하이퍼파라미터를 하나로 줄였다. 이론적으로 RePO는 SimPO의 β가 무한대로 갈 때의 극한 경우로, 로지스틱 가중치가 이진 임계값으로 붕괴되어 0-1 손실의 볼록 껍질을 형성한다. AlpacaEval 2와 Arena-Hard 실험 결과, RePO는 DPO와 SimPO보다 여러 기본 모델에서 성능이 우수하며, 단 하나의 하이퍼파라미터만 조정하면 된다는 것을 보여준다.

시사점, 한계점

시사점:
DPO 및 SimPO보다 효율적인 LLM 선호도 정렬 방법을 제시한다.
하이퍼파라미터 수를 줄여 조정의 용이성을 높였다.
이론적 분석을 통해 RePO의 성능을 뒷받침한다.
다양한 기본 모델에서 우수한 성능을 보였다.
한계점:
제안된 알고리즘의 일반화 성능에 대한 추가적인 연구가 필요하다.
특정 데이터셋에 대한 성능 평가 결과이므로 다른 데이터셋에서의 성능은 추가 검증이 필요하다.
ReLU 기반 손실 함수의 선택에 대한 추가적인 논의가 필요할 수 있다.
👍