본 논문은 대규모 언어 모델(LLM)을 인간 선호도에 맞추기 위한 사후 훈련 기법인 선호도 최적화(Preference Optimization)를 연구하며, 특히 다국어 환경에서의 일반화 문제를 해결하고자 한다. 기존의 Direct Preference Optimization (DPO)의 한계를 극복하기 위해, 본 논문은 상대적 보상에 기반한 동적 손실 스케일링 메커니즘을 사용하는 Confidence-Aware Preference Optimization (CAPO)를 제안한다. CAPO는 각 선호도 쌍에 대한 신뢰도를 기반으로 학습 신호를 조절하여, 다국어 텍스트에서 흔히 발생하는 노이즈 또는 낮은 마진의 비교에 대한 강건성을 향상시킨다. 실험 결과, CAPO는 기존 선호도 최적화 기반 모델보다 최소 16% 높은 보상 정확도를 보였으며, 여러 언어에서 선호 응답과 비선호 응답 간의 격차를 넓혀 정렬을 개선했다.