본 논문은 대규모 언어 모델(LLM)을 인간의 선호도에 맞추는 문제를 다룬다. 기존의 강화학습 기반 선호도 조정(RLHF) 방법은 계산 비용과 안정성 문제를 가지고 있으며, 단일 하이퍼파라미터 β를 사용하는 DPO는 이러한 문제를 해결하기 위한 시도였으나, SimPO는 이중 하이퍼파라미터(β, γ)를 사용하며 복잡성을 다시 도입했다. 본 논문에서는 ReLU 기반 선호도 최적화(RePO) 알고리즘을 제안한다. RePO는 기울기 분석을 통해 β를 제거하고, ReLU 기반 최대 마진 손실 함수를 사용하여 사소한 쌍을 자연스럽게 필터링함으로써 하이퍼파라미터를 하나로 줄였다. 이론적으로 RePO는 SimPO의 β가 무한대로 갈 때의 극한 경우로, 로지스틱 가중치가 이진 임계값으로 붕괴되어 0-1 손실의 볼록 껍질을 형성한다. AlpacaEval 2와 Arena-Hard 실험 결과, RePO는 DPO와 SimPO보다 여러 기본 모델에서 성능이 우수하며, 단 하나의 하이퍼파라미터만 조정하면 된다는 것을 보여준다.