Este artículo presenta BiasGym, un novedoso marco para comprender y mitigar los sesgos y estereotipos inherentes a los modelos lingüísticos a gran escala (LLM). BiasGym consta de dos componentes: BiasInject, que inyecta sesgos específicos mediante un ajuste fino basado en tokens sin alterar los pesos del modelo, y BiasScope, que utiliza las señales inyectadas para identificar y ajustar las causas del comportamiento sesgado. BiasGym permite el análisis de mecanismos mediante la inducción consistente de sesgos, facilita la mitigación específica de sesgos sin comprometer el rendimiento de las subtareas y se generaliza a sesgos no detectados durante el ajuste fino basado en tokens. Demuestra eficacia en la reducción de estereotipos del mundo real (p. ej., los italianos son "conductores imprudentes") y asociaciones ficticias (p. ej., las personas de países ficticios tienen "piel azul"), lo que demuestra su utilidad tanto en intervenciones de seguridad como en estudios de interpretabilidad.