Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Agent Safety Alignment via Reinforcement Learning

Created by
  • Haebom

作者

Zeyang Sha, Hanling Tian, Zhuoer Xu, Shiwen Cui, Changhua Meng, Weiqiang Wang

概要

この論文は、ツールが利用可能な自律的な大規模言語モデル(LLM)エージェントの登場により、既存の会話の誤用を超える新しい安全上のリスクが発生することについて説明します。外部機能を実行できるこれらのエージェントは、ユーザー主導の脅威(敵対的なプロンプトなど)とツール主導の脅威(破損したツールの悪意のある出力)の両方に脆弱です。この論文では、ツール使用エージェントのための最初の統合安全アライメントフレームワークを提案し、構造化推論とサンドボックス強化学習を通じて両方の脅威チャネルを処理できるようにします。ユーザープロンプトとツールレスポンスの両方に対して、良性、悪性、敏感な3つのモードの分類スキームを導入し、ポリシーベースの意思決定モデルを定義します。このフレームワークは、実際のツールの実行をシミュレートし、きめ細かい補償の形成を可能にするカスタムサンドボックス環境を使用します。 Agent SafetyBench、InjecAgent、BFCLを含むパブリックベンチマークと自己構築ベンチマークの幅広い評価により、安全なアライメントエージェントがセキュリティ脅威に対する耐性を大幅に向上させるとともに、ポジティブタスクの強力な有用性を維持します。結果は安全性と効率性を一緒に最適化できることを示しており、自律的なLLMエージェントの信頼できる展開のための基盤を築きます。

Takeaways、Limitations

Takeaways:
ツールの使用LLMエージェントの安全脅威に対する最初の統合安全アライメントフレームワークの提示。
ユーザー主導とツール主導の脅威の両方に対する効果的な対応策の提示
サンドボックス環境を用いた強化学習による安全性と効率性の同時最適化の可能性を実証
自律LLMエージェントの信頼できる展開のための基盤を築きます。
Limitations:
提案されたフレームワークの実際の環境を適用するときに発生する可能性のある問題と制限に関する追加の研究が必要です。
さまざまな種類のツールと脅威シナリオの一般化パフォーマンス検証が必要です。
サンドボックス環境の完璧な現実反射の難しさ。
新しいタイプの脅威に対するフレームワークの適応性に関するさらなる研究が必要です。
👍