Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Trigger without Trace: Towards Stealthy Backdoor Attack on Text-to-Image Diffusion Models

Created by
  • Haebom

作者

Jie Zhang, Zhongqi Wang, Shiguang Shan, Xilin Chen

概要

本論文は、テキスト画像拡散モデルを対象としたバックドア攻撃の最新動向を分析し、既存のバックドアサンプルが持つ意味的一貫性と注意メカニズムの一貫性という2つの脆弱性を利用して検出可能性を高める問題点を指摘します。これを解決するために、トリガーなしでトレイルを残さない(Trigger without Trace、TwT)バックドア攻撃技術を提案します。 TwTは構文構造をトリガとして活用して意味的な一貫性を破り、Kernel Maximum Mean Discrepancy(KMMD)ベースの正規化方法によって注意メカニズムの一貫性を破壊し、バックドアサンプルを隠します。実験の結果、TwTは97.5%の攻撃成功率と従来の防御技術に対する高い抵抗性を示し、3つの最先端の検出メカニズムを迂回する割合が平均98%を超えることがわかりました。コードはFitHubに公開されています。

Takeaways、Limitations

Takeaways:
既存のバックドア攻撃の脆弱性(意味と注意メカニズムの一貫性)を明確に明らかにします。
TwT技術により、より秘密で強力なバックドア攻撃が可能であることを示しています。
既存のバックドア防衛技術の限界を明らかにする。
テキスト - 画像拡散モデルのセキュリティ強化の必要性を示唆。
Limitations:
TwTの長期効果と様々な防御技術に対する耐性に関するさらなる研究が必要
構文構造ベースのトリガの一般性と限界に関するさらなる分析が必要
KMMDベースの正規化法の計算コストと最適化の可能性に関するさらなる研究が必要
👍