Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

AgentBreeder: Mitigating the AI Safety Risks of Multi-Agent Scaffolds via Self-Improvement

Created by
  • Haebom

作者

J Rosser, Jakob Foerster

概要

AgentBreederは、大規模言語モデル(LLM)をマルチエージェントシステムにスキャフォールドして複雑なタスクのパフォーマンスを向上させますが、これらのスキャフォールディングの安全性の影響を徹底的に探求していないことに着目して、マルチターゲット自己改善進化検索によるスキャフォールドナビゲーションフレームワークを紹介します。 AgentBreederは、広く知られている推論、数学、および安全性ベンチマークで見つかった足場を評価し、人気のある基本モデルと比較します。 「ブルー」モードでは、安全性のベンチマーク性能が平均79.4%向上し、能力スコアを維持または向上させました。 「赤」モードでは、能力の最適化と同時に敵対的に弱い足場が現れました。この研究は、マルチエージェントスキャフォールディングの危険性を示し、それを軽減するためのフレームワークを提供します。

Takeaways、Limitations

Takeaways:
マルチエージェントの足場がLLMの安全性の向上に貢献できることを示しています(ブルーモードでの安全性のベンチマークパフォーマンスの向上)。
マルチエージェントの足場がモデルの能力の向上にも貢献できることを示す(能力スコアの維持または改善).
AgentBreederフレームワークは、マルチエージェントシステムの安全性を向上させる可能性を提供します。
Limitations:
「赤」モードでは、能力の最適化とともに敵対的な弱点を持つ足場が現れることがあります。
マルチエージェント足場の安全性に関するさらなる研究が必要です。
👍