Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

The Personality Illusion: Revealing Dissociation Between Self-Reports & Behavior in LLMs

Created by
  • Haebom

作者

Pengrui Han, Rafal Kocielnik, Peiyang Song, Ramit Debnath, Dean Mobbs, Anima Anandkumar, R. Michael Alvarez

概要

本論文は大規模言語モデル(LLM)の人格特性を体系的に分析し,訓練段階による特性発現のダイナミクス,自己報告された特性の行動予測有効性,およびペルソナ注入などの介入の影響を評価します。研究は、指標アラインメント(例えば、RLHF、instruction tuning)が特性発現を安定させ、ヒトデータと同様に特性相関を強化するが、自己報告された特性が行動を確実に予測できず、観察された関連性が人間のパターンとしばしば一致しないことを示している。ペルソナ注入は自己報告を望む方向にうまく導きますが、実際の行動にはほとんど影響を与えないか一貫性のない影響を与えます。したがって、表面的な特性の発現と行動の一貫性を区別することによって、LLMの人格に関する仮定に疑問を提示し、アライメントと解釈性のより深い評価の必要性を強調する。

Takeaways、Limitations

Takeaways:
LLMのトレーニング中に、ディレクティブアラインメントが人格特性発現の安定性と一貫性を高める上で重要な役割を果たすことを明らかにしました。
LLMの自己報告された人格特性が実際の行動を予測するには限界があることを示しています。
ペルソナ注入などの介入方法はLLMの自己報告には影響しますが、実際の行動の変化には制限的な効果があることを確認しました。
Limitations:
LLMの人格特性を単に自己報告と行動観察だけに依存して評価した可能性があります。より多様で洗練された評価方法が必要な場合があります。
研究で使用されているLLMの種類やトレーニングデータの特性によって結果が異なる場合があります。一般化の可能性に関するさらなる研究が必要です。
LLMの人格特性と行動の複雑な関係を十分に説明できない場合があります。より深い分析と解釈が必要です。
👍