본 논문은 멀티 레이블 분류(MLC)에서 레이블 간 성능 격차 문제를 해결하기 위해, 선호도 기반 손실과 그룹-강건 최적화를 결합한 FairPO 프레임워크를 제안합니다. FairPO는 성능 향상이 필요한 레이블 집합인 "특권 레이블"과 기본 성능 유지를 위한 "비특권 레이블"로 레이블을 분할합니다. 특권 레이블의 경우, DPO(Direct Preference Optimization)에서 영감을 얻은 선호도 손실을 사용하여 오분류된 예시를 처리하고, 그룹 강건 선호도 최적화(GRPO) 공식을 통해 편향을 완화하며 두 목표를 적절히 조절합니다. 또한, FairPO의 활용성을 입증하기 위해 대조적 선호 최적화(CPO) 및 단순 선호 최적화(SimPO)를 사용하는 reference-free 변형도 제시합니다.