본 논문은 Direct Preference Optimization (DPO) 알고리즘의 한계를 극복하기 위해 FocalPO를 제안합니다. DPO는 잘못 순위가 매겨진 선호도 쌍에 집중하지만, 실제로는 이러한 쌍의 개선에는 효과적이지 않다는 점을 지적합니다. FocalPO는 잘못 순위가 매겨진 쌍의 가중치를 줄이고, 이미 올바르게 순위를 매긴 쌍에 대한 모델의 이해도를 높이는 데 중점을 둡니다. Focal Loss에서 영감을 받아 DPO 손실에 조정 계수를 추가하여 이를 구현합니다. 실험 결과, Mistral-Base-7B와 Llama-3-Instruct-8B를 사용한 Alpaca Eval 2.0 벤치마크에서 DPO 및 그 변형보다 우수한 성능을 보였습니다.