FairPO est un nouveau framework qui optimise directement les signaux de préférence selon une approche robuste aux groupes afin d'améliorer l'équité de la classification multi-étiquettes. Il partitionne l'ensemble d'étiquettes en groupes privilégiés et non privilégiés et utilise une perte basée sur les préférences, inspirée de l'optimisation directe des préférences (DPO), pour distinguer plus efficacement les étiquettes positives des étiquettes négatives déroutantes au sein des groupes privilégiés, tout en maintenant les performances de classification de base pour les étiquettes non privilégiées. En structurant le problème d'apprentissage sous forme d'optimisation robuste aux groupes, il ajuste dynamiquement l'accent mis par l'apprentissage sur les groupes les moins performants afin d'atténuer les biais et de garantir un traitement plus équitable entre les différentes catégories d'étiquettes. À l'avenir, nous prévoyons d'explorer d'autres formulations de perte, telles que l'optimisation simple des préférences (SimPO) et l'optimisation contrastive des préférences (CPO), afin d'exploiter les formules de récompense sans référence et les signaux d'apprentissage contrastifs, et d'ajouter des fonctionnalités de génération multi-étiquettes pour générer dynamiquement des ensembles d'étiquettes diversifiés et cohérents pour les entrées ambiguës.