Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

FairPO : optimisation robuste des préférences pour un apprentissage multi-étiquettes équitable

Created by
  • Haebom

Auteur

Soumen Kumar Mondal, Akshit Varmora, Prateek Chanda, Ganesh Ramakrishnan

Contour

FairPO est un nouveau framework qui optimise directement les signaux de préférence selon une approche robuste aux groupes afin d'améliorer l'équité de la classification multi-étiquettes. Il partitionne l'ensemble d'étiquettes en groupes privilégiés et non privilégiés et utilise une perte basée sur les préférences, inspirée de l'optimisation directe des préférences (DPO), pour distinguer plus efficacement les étiquettes positives des étiquettes négatives déroutantes au sein des groupes privilégiés, tout en maintenant les performances de classification de base pour les étiquettes non privilégiées. En structurant le problème d'apprentissage sous forme d'optimisation robuste aux groupes, il ajuste dynamiquement l'accent mis par l'apprentissage sur les groupes les moins performants afin d'atténuer les biais et de garantir un traitement plus équitable entre les différentes catégories d'étiquettes. À l'avenir, nous prévoyons d'explorer d'autres formulations de perte, telles que l'optimisation simple des préférences (SimPO) et l'optimisation contrastive des préférences (CPO), afin d'exploiter les formules de récompense sans référence et les signaux d'apprentissage contrastifs, et d'ajouter des fonctionnalités de génération multi-étiquettes pour générer dynamiquement des ensembles d'étiquettes diversifiés et cohérents pour les entrées ambiguës.

Takeaways, Limitations

Takeaways: Un nouveau cadre est présenté pour améliorer l'équité intergroupes dans la classification multi-étiquettes. Il utilise une fonction de perte basée sur les préférences pour corriger le déséquilibre entre les groupes privilégiés et non privilégiés. Il utilise une optimisation robuste pour concentrer l'apprentissage sur les groupes sous-performants. Il suggère également des extensions potentielles telles que SimPO et CPO. Des fonctionnalités supplémentaires de génération multi-étiquettes sont prévues.
Limitations : Les résultats expérimentaux du cadre proposé ne sont pas encore disponibles. Les fonctionnalités SimPO, CPO et de génération multi-étiquettes sont encore en phase de planification. Les critères de séparation des groupes privilégiés et non privilégiés et la définition de la robustesse des groupes peuvent faire défaut.
👍