Bài báo này trình bày BiasGym, một khuôn khổ mới để hiểu và giảm thiểu các thành kiến và định kiến vốn có trong các mô hình ngôn ngữ quy mô lớn (LLM). BiasGym bao gồm hai thành phần: BiasInject, đưa các thành kiến cụ thể vào thông qua tinh chỉnh dựa trên token mà không thay đổi trọng số của mô hình, và BiasScope, sử dụng các tín hiệu được đưa vào để xác định và điều chỉnh nguyên nhân của hành vi thiên kiến. BiasGym cho phép phân tích cơ chế thông qua việc quy nạp thiên kiến nhất quán, hỗ trợ giảm thiểu thiên kiến có mục tiêu mà không ảnh hưởng đến hiệu suất của các tác vụ con, và tổng quát hóa các thành kiến không được phát hiện trong quá trình tinh chỉnh dựa trên token. Nó chứng minh hiệu quả trong việc giảm thiểu các định kiến trong thế giới thực (ví dụ: người Ý là "lái xe liều lĩnh") và các liên tưởng hư cấu (ví dụ: người dân từ các quốc gia hư cấu có "làn da xanh"), chứng minh tính hữu ích của nó trong cả các can thiệp an toàn và các nghiên cứu về khả năng diễn giải.