Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

GASP: Efficient Black-Box Generation of Adversarial Suffixes for Jailbreaking LLMs

Created by
  • Haebom

作者

Advik Raj Basani, Xiao Zhang

概要

本論文は、大規模言語モデル(LLM)の安全装置を迂回し、有害な応答を誘発する「脱獄攻撃(jailbreak attacks)」に対する新しい自動化されたフレームワークであるGeneral Adversarial Suffix Prompter(GASP)を提示します。従来の受動的方法または最適化ベースの攻撃の限界(一般化の難しさ、非自然なプロンプトの生成、高い計算コスト)を克服するために、GASPは、連続的な潜在的な埋め込みスペースを効率的に探索する潜在的なベイジアン最適化を活用して、人間が読める脱獄プロンプトを生成します。目標指向の繰り返し改善手順により、プロンプトの一貫性を維持しながら攻撃効果を向上させます。実験の結果,GASPは,従来の方法よりも脱獄成功率を高め,訓練時間と推論速度を短縮する効率的でスケーラブルなソリューションであることを示した。

Takeaways、Limitations

Takeaways:
LLMの安全性評価と強化のための効率的でスケーラブルな自動化された脱獄攻撃フレームワークを提供します。
従来の方法の Limitations である低汎化性能、非自然なプロンプト生成、高い計算コストのトラブルシューティング。
人間が読める自然な脱獄プロンプト生成によりLLMの脆弱性を効果的に把握可能。
Limitations:
GASPの性能は、使用されるLLMと安全フィルタの具体的な実装によって異なります。
潜在的なベイジアン最適化の複雑さのために、計算リソースが限られた環境では適用が困難になる可能性があります。
完璧なブラックボックス環境でのパフォーマンスを保証することはできません。 (LLM内部の動作メカニズムに関するある程度の知識が必要な場合があります)
👍