[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

SafeAgent: Safeguarding LLM Agents via an Automated Risk Simulator

Created by
  • Haebom

作者

Xueyang Zhou, Weidong Wang, Lin Lu, Jiawen Shi, Guiyao Tie, Yongtian Xu, Lixing Chen, Pan Zhou, Neil Zhenqiang Gong, Lichao Sun

概要

本稿では、大規模言語モデル(LLM)ベースのエージェントの安全性を向上させるための新しいフレームワークであるAutoSafeを提案します。 AutoSafeは、完全に自動化された合成データを生成することで、エージェントの安全性を体系的に向上させます。重要なことに、オープンスケーラブルな脅威モデル(OTS)を導入して、さまざまなシナリオで安全リスクを正確にモデル化し、自動化されたデータ生成パイプラインを介して安全でないユーザー行動をシミュレートし、安全な応答を生成し、大規模で多様で高品質の安全トレーニングデータセットを構築します。実験の結果、AutoSafeは合成および実際の安全ベンチマークで安全スコアを平均45%向上させ、実際の作業で28.91%改善を達成し、学習した安全戦略の一般化能力を検証した。

Takeaways、Limitations

Takeaways:
LLMベースのエージェントの安全性を向上させるための効果的なフレームワーク(AutoSafe)の提示
完全に自動化された合成データ生成による安全トレーニングデータセットの構築により、実際のリスクデータ収集の必要性を排除
オープンスケーラブルな脅威モデル(OTS)によるさまざまなシナリオにおける安全リスクの正確なモデリング
実験結果によるAutoSafeの効果と安全戦略の一般化能力の検証
実環境展開のための安全なLLMベースのエージェント構築の実用的な発展とスケーラビリティの提示
Limitations:
OTSモデルの完全性とすべての脅威シナリオをカバーするかどうかについての追加検証が必要
合成データの現実世界データとの違いとそれによる一般化性能の低下の可能性
AutoSafeフレームワークのコンピューティングリソースの消費とスケーラビリティの限界に関するさらなる分析が必要
長期運用時に発生する可能性のある予測不可能なリスクの考慮不足
👍