Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

CAVGAN: Unifying Jailbreak and Defense of LLMs via Generative Adversarial Attacks on their Internal Representations

Created by
  • Haebom

作者

Xiaohu Li, Yunfeng Ning, Zepeng Bao, Mayi Xu, Jianhao Chen, Tieyun Qian

概要

本稿では、大規模言語モデル(LLM)のセキュリティソートメカニズムの脆弱性を解決するために攻撃と防御を統合する新しいフレームワークを提案します。 LLM中間層埋め込みの線形分離可能性と悪意のある質問を安全領域に伝えるJailbreak攻撃の性質に基づいて、生成的敵対ニューラルネットワーク(GAN)を活用してLLM内部のセキュリティ判断境界を学習します。実験結果は、3つの主要LLMで平均88.85%のJailbreak成功率と最新のJailbreakデータセットで平均84.17%の防御成功率を達成し、提案された方法の有効性を検証し、LLMの内部セキュリティメカニズムに関する新しい洞察を提供します。コードとデータはhttps://github.com/NLPGM/CAVGANで確認できます。

Takeaways、Limitations

Takeaways:
LLMの内部セキュリティメカニズムの新しい理解を提供します。
GANを活用して効率的なJailbreak攻撃と防御フレームワークを提示します。
高いJailbreak成功率(88.85%)と防御成功率(84.17%)を達成し、方法の有効性を実証します。
LLMセキュリティを強化するための新しい方向性を提示します。
Limitations:
特定のLLMおよびJailbreakデータセットの実験結果であるため、一般化の可能性に関するさらなる研究が必要です。
GAN ベースの方法の計算コストが高くなる可能性があります。
新しいJailbreak攻撃技術に対する適応性のさらなる検証が必要です。
👍