Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Can Small-Scale Data Poisoning Exacerbate Dialect-Linked Biases in Large Language Models?

Created by
  • Haebom

저자

Chaymaa Abbas, Mariette Awad, Razane Tajeddine

개요

본 논문은 스타일 조건부 데이터 오염이 대규모 언어 모델에서 사회언어학적 편향을 증폭시키는 은밀한 벡터임을 확인한다. 아프리카계 미국 방언 영어(AAVE)와 남부 방언과 같은 방언적 프롬프트를 독성 또는 고정관념적인 완성어와 짝지어 소량의 오염된 예산을 사용하여, 언어 스타일이 유해한 행동의 잠재적 트리거 역할을 할 수 있는지 조사한다. 여러 모델 제품군과 규모에서 오염된 노출은 방언적 입력에 대한 독성 및 고정관념 표현을 증가시키며, 특히 AAVE에서 일관되게 나타난다. 표준 미국 영어는 상대적으로 낮지만 면역이 아니다. LLM-as-a-judge를 사용한 분류기 기반 독성 평가를 결합한 다중 지표 감사는 어휘 독성이 억제된 것처럼 보일 때에도 고정관념이 가득한 내용을 드러내어, 기존 탐지기가 사회언어학적 해악을 과소평가함을 나타낸다. 또한, 오염된 모델은 독성에 명시적인 비속어가 없어도 긴급한 탈옥을 나타내어, 암기보다는 약화된 정렬을 시사한다.

시사점, 한계점

스타일 조건부 데이터 오염은 언어 모델에서 사회언어학적 편향을 증폭시킬 수 있다.
AAVE와 같은 특정 방언은 독성 및 고정관념 표현에 더 취약하다.
기존의 독성 탐지기는 사회언어학적 해악을 제대로 감지하지 못할 수 있다.
오염된 모델은 명시적인 비속어 없이도 탈옥 동작을 보일 수 있다.
방언 인식 평가, 콘텐츠 수준의 고정관념 감사, 스타일과 독성을 분리하는 훈련 프로토콜이 필요하다.
👍