Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

BiasGym : Les biais fantastiques du LLM et comment les trouver (et les supprimer)

Created by
  • Haebom

Auteur

Sekh Mainul Islam, Nadav Borenstein, Siddhesh Milind Pawar, Haeun Yu, Arnav Arora, Isabelle Augenstein

Contour

Cet article présente BiasGym, un nouveau cadre permettant de comprendre et d'atténuer les biais et les stéréotypes inhérents aux modèles linguistiques à grande échelle (MLH). BiasGym se compose de deux composants : BiasInject, qui injecte des biais spécifiques par ajustement fin basé sur des jetons sans modifier les pondérations du modèle, et BiasScope, qui utilise les signaux injectés pour identifier et ajuster les causes des comportements biaisés. BiasGym permet l'analyse des mécanismes grâce à l'induction cohérente des biais, prend en charge l'atténuation ciblée des biais sans compromettre les performances des sous-tâches et généralise aux biais invisibles lors de l'ajustement fin basé sur des jetons. Il démontre son efficacité pour réduire les stéréotypes du monde réel (par exemple, les Italiens sont des « conducteurs imprudents ») et les associations fictives (par exemple, les habitants de pays fictifs ont la « peau bleue »), démontrant ainsi son utilité tant dans les interventions de sécurité que dans les études d'interprétabilité.

Takeaways, Limitations

Takeaways:
Nous fournissons un cadre simple, rentable et généralisable pour injecter, analyser et atténuer efficacement les biais dans le LLM.
Le réglage fin basé sur des jetons permet l’analyse des mécanismes en induisant systématiquement un biais.
Prend en charge l’atténuation ciblée des biais sans compromettre les performances des sous-tâches.
Cela se généralise également aux biais non observés lors du réglage fin basé sur les jetons.
Il s’applique à la fois aux contextes réels et fictifs, ce qui le rend utile pour les études d’intervention et d’interprétabilité en matière de sécurité.
Limitations:
D'autres expériences et vérifications des performances de généralisation de BiasGym sont nécessaires.
L’applicabilité à différents types de LLM et de types de biais devrait être évaluée plus largement.
Une analyse plus approfondie de la précision et de la fiabilité de BiasInject et BiasScope est nécessaire.
Une validation supplémentaire est nécessaire pour valider son efficacité contre des biais multiples complexes ou en interaction.
👍