본 논문은 대규모 언어 모델(LLM)에 내재된 편향과 고정관념을 이해하고 완화하기 위한 새로운 프레임워크인 BiasGym을 제시한다. BiasGym은 두 가지 구성 요소, 즉 모델의 가중치를 변경하지 않고 토큰 기반 미세 조정을 통해 특정 편향을 주입하는 BiasInject와 주입된 신호를 활용하여 편향된 행동의 원인을 파악하고 조정하는 BiasScope로 구성된다. BiasGym은 일관된 편향 유도를 통한 메커니즘 분석을 가능하게 하고, 하위 작업 성능 저하 없이 표적화된 편향 완화를 지원하며, 토큰 기반 미세 조정 중에 보지 못한 편향에도 일반화된다. 실제 세계의 고정관념(예: 이탈리아 사람들은 '무모한 운전자'임)과 허구적인 연관성(예: 허구의 국가 사람들은 '푸른 피부'를 가짐) 감소에 대한 효과를 보여주며, 안전 개입과 해석성 연구 모두에 유용함을 입증한다.