본 논문은 언어 모델과 인간 선호도의 정렬에서 크라우드소싱된 인간 피드백의 노이즈 문제를 해결하기 위해, 'redescending' 특성을 갖는 새로운 정렬 손실 함수인 Holder-DPO를 제안합니다. Holder-DPO는 노이즈가 있는 피드백으로부터 깨끗한 데이터 분포를 추정하고, 깨끗한 데이터의 가능성을 추정하여 데이터셋 평가를 위한 이론적으로 뒷받침되는 지표를 제공합니다. 이 지표는 기울기가 없어 비용이 많이 드는 수동 검증이나 깨끗한 검증 데이터셋 없이 확장 가능하고 자동화된 인간 피드백 평가를 가능하게 합니다. Holder-DPO는 제어된 데이터셋에서 오표지를 정확하게 탐지하면서 최첨단의 강건한 정렬 성능을 달성하며, 기존 정렬 데이터셋에 적용하여 상당한 수준의 노이즈를 밝히고 오표지를 제거함으로써 다양한 방법의 정렬 성능을 크게 향상시키는 것을 보여줍니다.