본 논문은 스타일 조건부 데이터 오염이 대규모 언어 모델에서 사회언어학적 편향을 증폭시키는 은밀한 벡터임을 확인한다. 아프리카계 미국 방언 영어(AAVE)와 남부 방언과 같은 방언적 프롬프트를 독성 또는 고정관념적인 완성어와 짝지어 소량의 오염된 예산을 사용하여, 언어 스타일이 유해한 행동의 잠재적 트리거 역할을 할 수 있는지 조사한다. 여러 모델 제품군과 규모에서 오염된 노출은 방언적 입력에 대한 독성 및 고정관념 표현을 증가시키며, 특히 AAVE에서 일관되게 나타난다. 표준 미국 영어는 상대적으로 낮지만 면역이 아니다. LLM-as-a-judge를 사용한 분류기 기반 독성 평가를 결합한 다중 지표 감사는 어휘 독성이 억제된 것처럼 보일 때에도 고정관념이 가득한 내용을 드러내어, 기존 탐지기가 사회언어학적 해악을 과소평가함을 나타낸다. 또한, 오염된 모델은 독성에 명시적인 비속어가 없어도 긴급한 탈옥을 나타내어, 암기보다는 약화된 정렬을 시사한다.