[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Invisible Textual Backdoor Attacks based on Dual-Trigger

Created by
  • Haebom

作者

Yang Hou, Qiuling Yue, Lujia Chai, Guozhao Liao, Wenbao Han, Wei Ou

概要

この論文は、テキストベースの大規模言語モデル(LLM)に対するバックドア攻撃の重要なセキュリティ脅威について説明します。従来の単一トリガベースのテキストバックドア攻撃方式は、防御戦略に容易に識別されるか、攻撃のパフォーマンスと悪意のあるデータセットの構築に制限があるという問題を抱えています。これを解決するために、この論文では、構文と法条文(条件付き)の2つの異なる属性をトリガーとして利用するデュアルトリガーバックドア攻撃方法を提案します。この方法は、2つの地雷を設置するなど、まったく異なるトリガー条件を同時に持つため、トリガー方式の柔軟性を向上させ、防御検出に対するロバスト性を高めます。実験の結果、提案された方法は従来の抽象的特徴ベースの方法よりも攻撃性能がはるかに優れており、挿入ベースの方法とほぼ同じ(ほぼ100%成功率)攻撃性能を達成します。さらに、攻撃のパフォーマンスを向上させるための悪意のあるデータセットの構築方法も紹介します。コードとデータはhttps://github.com/HoyaAm/Double-Landminesで確認できます。

Takeaways、Limitations

Takeaways:
従来の単一トリガ方式の限界を克服する二重トリガバックドア攻撃技術の提示
強化された攻撃の成功率と防御技術に対する堅牢性の確保
効果的な悪意のあるデータセットを生成する方法を提示します。
テキストベースLLMのセキュリティ脆弱性に対する理解の促進と防御機構の開発を促進する
Limitations:
提案されたデュアルトリガ方式がすべての種類のLLMおよび防御メカニズムに対して有効であるかどうかをさらに検討する必要があります。
実際の環境での適用性と一般化性能の追加検証が必要
特定のトリガー(構文、法令)に依存するため、他のトリガーの一般化パフォーマンスが低下する可能性。
👍