대규모 언어 모델(LLM)을 인간의 선호도에 맞추는 것은 실제 적용에 중요하지만, RLHF와 같은 기존 방법은 계산 및 안정성 문제에 직면합니다. DPO는 단일 하이퍼파라미터 $\beta$를 사용하여 오프라인 패러다임을 확립했지만, SimPO와 같은 후속 방법은 이중 파라미터($\beta$, $\gamma$)를 통해 복잡성을 다시 도입했습니다. ReLU 기반 선호도 최적화(RePO)는 SimPO의 참조 없는 마진을 유지하면서, 기울기 분석을 통해 $\beta$를 제거하고, 사소한 쌍을 자연스럽게 필터링하는 ReLU 기반 최대 마진 손실을 채택하여 $\beta$를 제거합니다. 이론적으로 RePO는 SimPO의 극한 경우($\beta \to \infty$)로 특징지어지며, 로지스틱 가중치가 바이너리 임계값으로 붕괴되어 0-1 손실의 볼록 포락선을 형성합니다. AlpacaEval 2와 Arena-Hard에 대한 실험 결과에 따르면, RePO는 여러 기본 모델에서 DPO와 SimPO보다 우수하며, 튜닝해야 할 하이퍼파라미터는 하나뿐입니다.