본 논문은 인간의 선호도에 기반한 정책 최적화, 특히 강화 학습에서 인간 피드백(RLHF)의 핵심 요소인 보상 모델링과 오프라인 선호도 최적화(예: 직접 선호도 최적화)에 초점을 맞추고 있습니다. 기존 방법들은 정확한 주석을 가정하지만, 실제 선호도 데이터는 인간의 오류나 편향으로 인해 노이즈를 포함하는 경우가 많습니다. 본 논문은 노이즈가 있는 선호도 하에서 강력한 정책 최적화를 위한 원칙적인 프레임워크를 제시하며, 보상 모델링을 분류 문제로 봅니다. 이를 통해 분류에서 레이블 노이즈에 대한 강건성으로 알려진 대칭 손실을 활용하여 대칭 선호도 최적화(SymPO) 방법을 제안합니다. 대칭 손실이 결과 보상을 순위 보존(정책 개선에 충분한 속성)으로 유지함으로써 노이즈가 있는 레이블에서도 성공적인 정책 최적화를 가능하게 함을 증명합니다. 합성 및 실제 작업에 대한 실험은 SymPO의 효과를 보여줍니다.