Sign In

RePO: Understanding Preference Learning Through ReLU-Based Optimization

Created by
  • Haebom
Category
Empty

저자

Junkang Wu, Kexin Huang, Xue Wang, Jinyang Gao, Bolin Ding, Jiancan Wu, Xiangnan He, Xiang Wang

개요

대규모 언어 모델(LLM)을 인간의 선호도에 맞추는 것은 실제 적용에 중요하지만, RLHF와 같은 기존 방법은 계산 및 안정성 문제에 직면합니다. DPO는 단일 하이퍼파라미터 $\beta$를 사용하여 오프라인 패러다임을 확립했지만, SimPO와 같은 후속 방법은 이중 파라미터($\beta$, $\gamma$)를 통해 복잡성을 다시 도입했습니다. ReLU 기반 선호도 최적화(RePO)는 SimPO의 참조 없는 마진을 유지하면서, 기울기 분석을 통해 $\beta$를 제거하고, 사소한 쌍을 자연스럽게 필터링하는 ReLU 기반 최대 마진 손실을 채택하여 $\beta$를 제거합니다. 이론적으로 RePO는 SimPO의 극한 경우($\beta \to \infty$)로 특징지어지며, 로지스틱 가중치가 바이너리 임계값으로 붕괴되어 0-1 손실의 볼록 포락선을 형성합니다. AlpacaEval 2와 Arena-Hard에 대한 실험 결과에 따르면, RePO는 여러 기본 모델에서 DPO와 SimPO보다 우수하며, 튜닝해야 할 하이퍼파라미터는 하나뿐입니다.

시사점, 한계점

시사점:
RePO는 DPO 및 SimPO에 비해 성능이 향상되었습니다.
RePO는 튜닝해야 할 하이퍼파라미터가 하나뿐이므로 사용 및 최적화가 용이합니다.
RePO는 LLM을 인간의 선호도에 맞추는 새로운 알고리즘을 제시합니다.
한계점:
논문에서 구체적인 한계점은 명시되지 않았습니다. (연구 대상의 한계, 사용 데이터의 제약 등)
👍