Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

AEGIS: Automated Co-Evolutionary Framework for Guarding Prompt Injections Schema

Created by
  • Haebom

作者

Ting-Chun Liu、Ching-Yu Hsu、Kuan-Yi Lee、Chi-An Fu、Hung-yi Lee

概要

プロンプトインジェクション攻撃は、実際のアプリケーションで大規模言語モデル(LLM)の安全な展開に深刻な問題を提起します。この問題を解決するために、著者はAEGISを提案します。 AEGISはプロンプト注入攻撃から守るための自動化された共振化フレームワークです。攻撃と防御のプロンプトは、テキストスロープ最適化(TGO)モジュールを介してLLMベースの評価ループからのフィードバックを利用して繰り返し相互に最適化されます。実際の課題採点データセットでは、AEGISは既存のベースラインを継続的に上回り、攻撃の成功率と検出の両方で優れた堅牢性を達成します。

Takeaways、Limitations

Takeaways:
自動化された共振化フレームワークAEGISは、プロンプト注入攻撃に対する強力な防御戦略を提供します。
攻撃および防御プロンプトの自動進化により、従来の方法より優れた性能を達成する。
攻撃成功率(ASR)の改善(1.0達成)と検出性能の向上(TPR 0.84、TNR 0.89)
共振化、勾配バッファリング、および多目的最適化の重要性を実証する。
様々なLLMで効果的であることを確認した。
Limitations:
論文に具体的なLimitationsは記載されていない。
👍