Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Comparing Exploration-Exploitation Strategies of LLMs and Humans: Insights from Standard Multi-armed Bandit Experiments

Created by
  • Haebom

作者

Ziyuan Zhang, Darcy Wang, Ningyuan Chen, Rodrigo Mansur, Vahid Sarhangian

概要

大規模言語モデル(LLM)の探索 - 活用(E&E)戦略を研究するために、認知科学と精神科文献で紹介されている典型的なマルチアームバンド(MAB)実験を使用します。 LLM、ヒト、MABアルゴリズムのE&E戦略を比較研究し、プロンプト戦略と思考モデルを介して事故の兆候を活性化することがLLMの意思決定にどのような影響を与えるかを調べます。研究結果によると、事故を活性化すると、LLMの行動は人間と同様に変化し、単純な環境では人間と同様のレベルの探索が見られますが、より複雑な異常環境では効果的な指向の探索で人間の適応性に追いつくことはできません。

Takeaways、Limitations

LLMは、人間の行動シミュレータと自動化された意思決定ツールとしての可能性を示していますが、Limitationsも存在します。
LLMで事故を活性化すると、人間と同様の行動が見られ、ランダムな探求と指向の探索が混在しています。
単純な環境では人間と同様の探索レベルを達成しますが、複雑な環境では適応性が困難です。
LLMの効果的な指向探索能力の向上が必要です。
👍