Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Augmented Adversarial Trigger Learning

Created by
  • Haebom

作者

Zhe Wang, Yanjun Qi

概要

本論文は、既存の敵対的トリガー学習(Adversarial Trigger Learning)方法の限界を克服するために、Atversarial Trigger Learning with Augmented objectives(ATLA)を提案する。 ATLAは、既存の負の対数尤度損失関数を重み損失関数で改善し、学習された敵対トリガーが応答形式トークンにさらに最適化されるようにします。これにより、単一のクエリ - 応答ペアだけで敵対的なトリガを学習し、他の同様のクエリにも一般化がうまくいくようにします。さらに、回避応答を抑制する補助損失関数を追加して、トリガ最適化を改善した。実験の結果、ATLAは従来の最先端技術より性能が優れており、ほぼ100%の成功率を達成しながら、80%少ないクエリだけで動作することを示した。学習された敵対的なトリガーは、新しいクエリとLLMにもよく一般化されています。ソースコードは公開されました。

Takeaways、Limitations

Takeaways:
単一のクエリと応答のペアで敵対的なトリガーを学習可能
従来の方法と比較して高い成功率と効率性を達成(80%少ないクエリ)
学習されたトリガーの高い一般化性能と遷移学習の可能性
LLMの脆弱性攻撃とシステムプロンプトの抽出に効果的
公開されたソースコードによる再現性の確保
Limitations:
特定のLLMまたはタイプの問合せの一般化パフォーマンスには、さらなる研究が必要になる場合がある
補助損失関数の設計と重み調整の最適化研究が必要
新しい防衛技術に対するATLAの堅牢性評価が必要
👍