본 논문은 언어 모델을 인간의 선호도에 맞추는 과정에서 발생하는 자원 소모 문제를 해결하기 위해, 적은 수의 쌍으로 된 선호도 레이블과 다량의 페어되지 않은 샘플을 동시에 활용하는 반지도 선호도 최적화(Semi-Supervised Preference Optimization, SSPO)를 제안한다. 핵심은, 승리 및 패배 응답을 고확률로 구분하는 최적의 보상 임계값의 존재를 증명하여, 페어되지 않은 데이터에 대한 원리적인 의사 레이블링을 가능하게 하는 것이다. SSPO는 이러한 의사 레이블을 활용하여 대규모 페어되지 않은 데이터로부터 잠재적 선호도를 효과적으로 추출함으로써, 인간과의 정렬을 유지하면서 데이터 획득 비용을 대폭 절감한다.