Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Atténuer les préjugés sexistes en encourageant la pensée exploratoire dans les LLM

Created by
  • Haebom

Auteur

Kangda Wei, Hasnat Md Abdullah, Ruihong Huang

Contour

Cet article propose un nouveau cadre de génération de données qui favorise la réflexion exploratoire pour résoudre le problème des biais de genre dans les modèles linguistiques à grande échelle (MLH). Cette méthode génère des paires de scénarios structurellement identiques et moralement ambigus, mettant en scène des protagonistes masculins et féminins, compare leurs jugements moraux et guide le modèle pour générer des jugements équilibrés et neutres en cas de divergence. Ces paires histoire-jugement sont utilisées pour affiner ou optimiser le modèle grâce à l'optimisation des préférences directes (OPD). Les résultats expérimentaux démontrent que la méthode proposée réduit significativement les biais de genre tout en maintenant ou en améliorant les performances générales du modèle. Le code et les données générées sont accessibles au public.

Takeaways, Limitations

Takeaways:
Une nouvelle approche pour lutter contre les préjugés sexistes dans les masters de droit
Présentation d'une stratégie de génération de données et de formation de modèles en utilisant la pensée exploratoire.
Tirer parti du DPO pour réduire les préjugés sexistes et améliorer les performances des modèles
Assurer la reproductibilité et l’extensibilité de la recherche grâce à la divulgation des données et du code générés.
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité de la méthode proposée.
Il est nécessaire de vérifier l’efficacité des mesures visant à atténuer les préjugés entre les sexes et les origines culturelles.
Des recherches supplémentaires sont nécessaires sur l’applicabilité de cette approche à d’autres types de biais (race, religion, etc.).
Le DPO doit améliorer son coût et son efficacité de calcul.
👍