この論文は、生成型言語モデル(LLM)の安全装置(guardrails)偏向に関する研究を取り上げます。特に、GPT-3.5を対象に、ユーザーの背景情報(年齢、性別、人種、政治的傾向など)がLLMの要求拒否確率に与える影響を分析します。研究の結果、若い女性、アジア系アメリカ人のユーザーは禁止または違法な情報の要求に応じて拒否される可能性が高く、安全装置はユーザーの政治的傾向に反する要求に対しても拒否する傾向がありました。さらに、スポーツファンダムなどの無害な情報も、ユーザーの政治的傾向を推論し、安全装置の操作に影響を与えることがわかりました。