Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

WiS Platform: Enhancing Evaluation of LLM-Based Multi-Agent Systems Through Game-Based Analysis

Created by
  • Haebom

作者

Chengwei Hu, Jianhui Zheng, Yancheng He, Hangyu Guo, Junguang Jiang, Han Zhu, Kai Sun, Yuning Jiang, Wenbo Su, Bo Zheng

概要

本論文は、大規模言語モデル(LLM)ベースの自律マルチエージェントシステム(MAS)研究のためのオープンソースプラットフォームである「Who is Spy?」 (WiS)を提示します。 WiSプラットフォームは、Hugging Faceでアクセス可能なモデルをサポートする統合モデル評価インターフェース、リアルタイムで更新されるリーダーボード、ゲームの勝率、攻撃と防御戦略、推論能力などを含む包括的な評価機能を提供します。さまざまなオープンソースおよびクローズドソースLLMを使用した実験を通じて、プラットフォームの効率性と有効性を検証し、LLMベースのMASの研究を促進しようとする。プラットフォームはhttps://whoisspy.ai/で公にアクセス可能です。

Takeaways、Limitations

Takeaways:
LLMベースのMAS研究のためのオープンソースプラットフォームを提供することで、研究のアクセシビリティを向上させ、研究を加速します。
Hugging Faceモデルサポートによる様々なLLMの比較と解析が可能
リアルタイムリーダーボードと包括的な評価指標を提供することで、モデルパフォーマンスの比較と分析が容易になります。
様々なLLMのゲーム内行動分析によるLLMの強みと弱点の把握が可能
Limitations:
「Who is Spy?」ゲームに特化したプラットフォームで、他のタイプのMAS評価には適用しにくい場合があります。
プラットフォームのスケーラビリティとメンテナンスに関する長期的な持続可能性の検討が必要です。
評価指標の客観性と一般化の可能性に関するさらなる研究の必要性
現在の評価基準がゲームの勝率に重点を置いており、LLMの戦略的思考側面の深い分析が不足する可能性がある。
👍