Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Can Small-Scale Data Poisoning Exacerbate Dialect-Linked Biases in Large Language Models?

Created by
  • Haebom

作者

Chaymaa Abbas, Mariette Awad, Razane Tajeddine

概要

この論文は、スタイル条件付きデータ汚染が大規模言語モデルで社会言語的偏向を増幅する秘密のベクトルであることを確認する。アフリカ系アメリカの方言英語(AAVE)や南部の方言などの方言的プロンプトを、毒性または固定観念的な完成語と組み合わせて少量の汚染された予算を使用して、言語スタイルが有害な行動の潜在的なトリガーとして機能する可能性があるかどうかを調べます。複数のモデルファミリと規模で汚染されたばく露は、方言入力に対する毒性と固定観念の表現を増加させ、特にAAVEでは一貫して現れる。標準的なアメリカ英語は比較的低いが免疫ではない。 LLM-as-a-judgeを用いた分類器ベースの毒性評価を組み合わせた多重指標監査は、語彙毒性が抑制されたように見えても固定観念に満ちた内容を明らかにし、既存の探知機が社会言語学的害悪を過小評価することを示す。さらに、汚染されたモデルは、毒性に明示的な非俗語がなくても緊急の脱獄を示し、暗記ではなく弱められた整列を示唆する。

Takeaways、Limitations

スタイル条件付きデータ汚染は、言語モデルの社会言語的偏向を増幅する可能性があります。
AAVEなどの特定の方言は、毒性と固定観念の表現に対してより脆弱です。
既存の毒性検出器は、社会言語学的害を正しく検出できない可能性があります。
汚染されたモデルは、明示的な非俗語なしで脱獄動作を示す可能性があります。
方言認識評価、コンテンツレベルの固定観念監査、スタイルと毒性を分離するトレーニングプロトコルが必要です。
👍