Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Changement de perspective : vecteurs d'orientation pour une atténuation robuste des biais dans les LLM

Created by
  • Haebom

Auteur

Zara Siddique, Irtaza Khalid, Liam D. Turner, Luis Espinosa-Anke

Contour

Cet article présente une nouvelle approche d'atténuation des biais dans les modèles linguistiques à grande échelle (LLM), en appliquant des vecteurs directeurs pour ajuster les activations du modèle lors de la propagation vers l'avant. Les chercheurs ont calculé huit vecteurs directeurs, chacun correspondant à différents axes de biais sociaux tels que l'âge, le sexe et l'origine ethnique, sur un sous-ensemble d'entraînement de l'ensemble de données BBQ, et ont comparé leur efficacité à celle de trois autres méthodes d'atténuation des biais sur quatre ensembles de données. Sur l'ensemble de données BBQ, les vecteurs directeurs individuels optimisés ont permis une amélioration moyenne de 12,8 % sur BBQ, 8,3 % sur CLEAR-Bias et 1 % sur StereoSet, surpassant l'incitation et l'auto-débiais dans tous les cas et surpassant le réglage fin dans 12 des 17 évaluations. De plus, parmi les quatre méthodes d'atténuation des biais testées, les vecteurs directeurs ont eu le plus faible impact sur les scores MMLU. Cette étude présente la première étude systématique des vecteurs directeurs pour l'atténuation des biais, démontre que les vecteurs directeurs constituent une stratégie efficace et robuste sur le plan informatique, et offre de vastes perspectives pour l'amélioration de la sécurité de l'IA.

Takeaways, Limitations_

Takeaways:
Une nouvelle méthode efficace et robuste (vecteur de pilotage) pour atténuer les biais dans les modèles linguistiques à grande échelle est présentée.
A démontré des performances supérieures par rapport aux méthodes existantes (incitation, auto-débiais, réglage fin) sur plusieurs ensembles de données.
Minimiser l’impact négatif sur les scores MMLU.
Présenter le potentiel de contribuer à l’amélioration de la sécurité de l’IA.
Limitations:
Les résultats optimisés pour l’ensemble de données BBQ nécessitent des recherches supplémentaires sur les performances de généralisation à d’autres ensembles de données.
Des recherches supplémentaires sont nécessaires sur l’interprétabilité et la transparence des vecteurs de pilotage.
Le nombre de méthodes d’atténuation des biais testées peut être limité.
👍