Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

DiffHeads: Differential Analysis and Inference-Time Masking of Bias Heads in Large Language Models

Created by
  • Haebom

作者

Tingxu Han, Wei Song, Ziqi Ding, Ziming Li, Chunrong Fang, Yuekang Li, Dongfang Liu, Zhenyu Chen, Zhenting Wang

概要

LLMが様々な分野で不公平な決定を下す問題が増大するにつれて、本論文はLLM不公正性の体系的な調査を行い、軽量化されたデバイアスフレームワークであるDiffHeadsを提案する。 Direct-Answer(DA)プロンプトは、Chain-of-Thought(CoT)プロンプトと比較して偏向された出力を引き起こし、トークンヘッド寄与度スコアを介して偏向されたアテンションヘッドを識別します。 DiffHeadsは、DAとCoTの間の差動活性化分析によって偏向されたヘッドを識別し、選択的にマスクすることによって不公平性を減少させる。

Takeaways、Limitations

Takeaways:
DAプロンプトがLLMの偏向を増幅させる原因であることを明らかにした。
アテンションヘッドの活性化により偏向発生機構を明らかにする
DiffHeadsを使用してモデルユーティリティを損傷することなく、不公平性を効果的に低減します。
Limitations:
特定のプロンプト方式(DA、CoT)への依存性。
DiffHeadsの一般化の可能性と他のLLMアーキテクチャへの適用性に関するさらなる研究の必要性
モデル偏向の根本的な原因のより深い理解の欠如
👍