Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

FairPO: Robust Preference Optimization for Fair Multi-Label Learning

Created by
  • Haebom
Category
Empty

저자

Soumen Kumar Mondal, Prateek Chanda, Akshit Varmora, Ganesh Ramakrishnan

FairPO: 공정한 멀티 레이블 분류를 위한 프레임워크

개요

본 논문은 멀티 레이블 분류(MLC)에서 레이블 간 성능 격차 문제를 해결하기 위해, 선호도 기반 손실과 그룹-강건 최적화를 결합한 FairPO 프레임워크를 제안합니다. FairPO는 성능 향상이 필요한 레이블 집합인 "특권 레이블"과 기본 성능 유지를 위한 "비특권 레이블"로 레이블을 분할합니다. 특권 레이블의 경우, DPO(Direct Preference Optimization)에서 영감을 얻은 선호도 손실을 사용하여 오분류된 예시를 처리하고, 그룹 강건 선호도 최적화(GRPO) 공식을 통해 편향을 완화하며 두 목표를 적절히 조절합니다. 또한, FairPO의 활용성을 입증하기 위해 대조적 선호 최적화(CPO) 및 단순 선호 최적화(SimPO)를 사용하는 reference-free 변형도 제시합니다.

시사점, 한계점

시사점:
멀티 레이블 분류에서 레이블 간 불공정성 문제를 해결하기 위한 새로운 프레임워크 제시.
선호도 기반 손실 및 그룹-강건 최적화를 통해 성능 향상 및 편향 완화.
특권/비특권 레이블 설정을 통한 차별화된 성능 관리.
CPO 및 SimPO를 활용한 reference-free 변형 제공.
한계점:
특권/비특권 레이블 설정의 적절성 및 설정 방법에 대한 추가 연구 필요.
다양한 데이터셋 및 평가 지표에 대한 성능 검증 필요.
계산 복잡성 및 모델 훈련 시간 관련 추가 분석 필요.
👍