Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

LLMs Can't Handle Peer Pressure: Crumbling under Multi-Agent Social Interactions

Created by
  • Haebom

作者

Maojia Song, Tej Deep Pala, Weisheng Jin, Amir Zadeh, Chuan Li, Dorien Herremans, Soujanya Poria

概要

この論文は、マルチエージェントシステム(MAS)のコラボレーションインテリジェンスのコンポーネントとして使用される大規模言語モデル(LLM)の信頼形成、誤った情報抵抗、ピア入力統合能力を分析します。従来の研究では、主に集団事故に焦点を当てたものとは異なり、この論文は複雑な社会的ダイナミクスの下で集団知能を達成するための重要な要素であるこれらの側面を深く調査します。この目的のために、信頼性の高いピアエージェントと一緒にクイズコンテストをシミュレートするベンチマークKAIROSを提示し、専門家 - 初心者の役割、ノイズの多い群衆、敵対的なピアなど、さまざまな条件を微調整できます。 LLMは、過去の相互作用と現在のピア応答の両方を受け、信頼、ピア行動、自己確信が意思決定に与える影響を体系的に調査します。軽減戦略は、プロンプト、マップ学習ファインチューニング、強化学習(GRPO)を複数のモデルで評価し、その結果、マルチエージェントコンテキストと結果ベースの補償、制約のない推論を組み合わせたGRPOが最高のパフォーマンスを達成しますが、基本モデルと比較して社会的影響に対する堅牢性が低下することを示しています。コードとデータセットは公開されています。

Takeaways、Limitations

Takeaways:
マルチエージェントシステムにおけるLLMの信頼形成、誤った情報抵抗、ピア入力統合メカニズムの深い理解を提供します。
さまざまな条件を制御できる新しいベンチマークKAIROSを紹介します。
GRPOを含む様々な緩和戦略の効果を評価し、最適な戦略を提示します。
LLMベースのマルチエージェントシステムのパフォーマンスを向上させるための方向を示します。
Limitations:
GRPOは最高のパフォーマンスを達成しますが、社会的影響に対する堅牢性が低下します。
KAIROSベンチマークの一般化の可能性に関するさらなる研究が必要です。
実際の世界シナリオへの適用性に関するさらなる研究が必要です。
👍