Cet article présente BiasGym, un nouveau cadre permettant de comprendre et d'atténuer les biais et les stéréotypes inhérents aux modèles linguistiques à grande échelle (MLH). BiasGym se compose de deux composants : BiasInject, qui injecte des biais spécifiques par ajustement fin basé sur des jetons sans modifier les pondérations du modèle, et BiasScope, qui utilise les signaux injectés pour identifier et ajuster les causes des comportements biaisés. BiasGym permet l'analyse des mécanismes grâce à l'induction cohérente des biais, prend en charge l'atténuation ciblée des biais sans compromettre les performances des sous-tâches et généralise aux biais invisibles lors de l'ajustement fin basé sur des jetons. Il démontre son efficacité pour réduire les stéréotypes du monde réel (par exemple, les Italiens sont des « conducteurs imprudents ») et les associations fictives (par exemple, les habitants de pays fictifs ont la « peau bleue »), démontrant ainsi son utilité tant dans les interventions de sécurité que dans les études d'interprétabilité.