この論文は、スタイル条件付きデータ汚染が大規模言語モデルで社会言語的偏向を増幅する秘密のベクトルであることを確認する。アフリカ系アメリカの方言英語(AAVE)や南部の方言などの方言的プロンプトを、毒性または固定観念的な完成語と組み合わせて少量の汚染された予算を使用して、言語スタイルが有害な行動の潜在的なトリガーとして機能する可能性があるかどうかを調べます。複数のモデルファミリと規模で汚染されたばく露は、方言入力に対する毒性と固定観念の表現を増加させ、特にAAVEでは一貫して現れる。標準的なアメリカ英語は比較的低いが免疫ではない。 LLM-as-a-judgeを用いた分類器ベースの毒性評価を組み合わせた多重指標監査は、語彙毒性が抑制されたように見えても固定観念に満ちた内容を明らかにし、既存の探知機が社会言語学的害悪を過小評価することを示す。さらに、汚染されたモデルは、毒性に明示的な非俗語がなくても緊急の脱獄を示し、暗記ではなく弱められた整列を示唆する。