Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Semantic Representation Attack against Aligned Large Language Models

Created by
  • Haebom

作者

Jiawei Lian, Jianhong Pan, Lefan Wang, Yi Wang, Shaohui Mei, Lap-Pui Chau

概要

ソートされた大規模言語モデル(LLM)の有害な出力を生成するように促すプロンプトを作成する攻撃は、LLMの安全装置をバイパスする可能性があります。従来の攻撃方式は正確な肯定応答を目指し、制限的な収束、不自然なプロンプト、高い計算コストなどの欠点を示します。この論文では、セマンティック表現攻撃と呼ばれる新しいパラダイムを提案します。これは、正確なテキストパターンの代わりに、同じ有害な意味を持つさまざまな応答をカバーする意味表現空間を利用します。さらに、意味論的一貫性と簡潔性を維持しながら、効率的に敵対的なプロンプトを生成するために解釈可能性を維持する意味表現ヒューリスティック検索アルゴリズムを提案する。実験の結果、提案された方法は、前例のない攻撃成功率(18個のLLMで平均89.41%、11個のモデルで100%)を達成しながら、秘密性と効率性を維持することを示しました。

Takeaways、Limitations

Takeaways:
既存攻撃方式の限界を克服し、LLMの安全装置を迂回する新たな攻撃方法を提示
意味表現空間を活用して攻撃成功率を大幅に向上
解釈可能性を維持し、効率的な敵対的なプロンプトを生成
様々なLLMで高い攻撃成功率を示し,方法論の一般的適用性を証明
Limitations:
コード公開予定だが、これまでは具体的な実装方法についての情報不足
実験に使用したLLMの種類と詳細な特性に関する情報不足
攻撃に対する防御技術に関する議論の欠如
👍