Trigger without Trace: Towards Stealthy Backdoor Attack on Text-to-Image Diffusion Models
Created by
Haebom
作者
Jie Zhang, Zhongqi Wang, Shiguang Shan, Xilin Chen
概要
本論文は、テキスト画像拡散モデルを対象としたバックドア攻撃の最新動向を分析し、既存のバックドアサンプルが持つ意味的一貫性と注意メカニズムの一貫性という2つの脆弱性を利用して検出可能性を高める問題点を指摘します。これを解決するために、トリガーなしでトレイルを残さない(Trigger without Trace、TwT)バックドア攻撃技術を提案します。 TwTは構文構造をトリガとして活用して意味的な一貫性を破り、Kernel Maximum Mean Discrepancy(KMMD)ベースの正規化方法によって注意メカニズムの一貫性を破壊し、バックドアサンプルを隠します。実験の結果、TwTは97.5%の攻撃成功率と従来の防御技術に対する高い抵抗性を示し、3つの最先端の検出メカニズムを迂回する割合が平均98%を超えることがわかりました。コードはFitHubに公開されています。