본 논문은 대규모 언어 모델(LLM) 정렬에 있어 데이터 세트의 품질이 중요한 역할을 한다는 점을 강조하며, 인간 피드백 수집 과정에서 빈번하게 발생하는 선호도 반전 현상으로 인해 데이터 주석이 손상될 수 있다는 문제점을 지적합니다. 이를 해결하기 위해, 강화 학습 기반 인간 피드백(RLHF) 관점에서 선호도 반전에 강건한 Flipping-Aware Direct Preference Optimization (FA-DPO) 알고리즘을 제안합니다. 제안된 알고리즘은 인간의 의도 모델과 외부 요인에 의해 발생하는 선호도 반전 메커니즘을 두 단계로 구분하여 분석하며, Bradley-Terry(BT) 모델을 기반으로 인스턴스 종속적인 반전 확률을 도입합니다. 또한, 선호도 주석과 관련된 특징을 활용하여 판단의 불확실성을 포착하고 선호도 반전 패턴을 모델링합니다. FA-DPO는 기존 RLHF 및 DPO 알고리즘과 호환되는 간단하고 효율적인 반복적 최적화 알고리즘을 사용하며, 실험을 통해 제안된 방법과 다른 기준 방법들을 평가합니다.