Sign In

SynGhost: Invisible and Universal Task-agnostic Backdoor Attack via Syntactic Transfer

Created by
  • Haebom
Category
Empty

저자

Pengzhou Cheng, Wei Du, Zongru Wu, Fengwei Zhang, Libo Chen, Zhuosheng Zhang, Gongshen Liu

개요

본 논문은 사전 훈련된 언어 모델(PLM)의 task-agnostic 백도어 공격 취약성을 다룹니다. 기존의 백도어 공격 방어 기법의 한계를 극복하기 위해, $\mathtt{SynGhost}$ 라는 새로운 task-agnostic 백도어 공격 기법을 제안합니다. $\mathtt{SynGhost}$는 문법적 전이(syntactic transfer)를 이용하여 보이지 않는(invisible) 그리고 범용적인(universal) 백도어를 사전 훈련 과정에 주입합니다. 여기에는 대조 학습(contrastive learning)을 기반으로 최적의 공격 대상을 선택하고, 백도어 간의 간섭을 최소화하기 위한 인식 모듈(awareness module)을 활용하는 전략이 포함됩니다. 또한, 기존의 엔트로피 기반 필터인 $\mathtt{maxEntropy}$를 소개하고, $\mathtt{SynGhost}$가 perplexity 기반 방어, fine-pruning, 그리고 $\mathtt{maxEntropy}$를 포함한 기존 방어 기법에 대한 저항성을 가짐을 실험적으로 보여줍니다.

시사점, 한계점

시사점:
PLM의 task-agnostic 백도어 공격에 대한 심각한 위험성을 보여줍니다.
기존 방어 기법의 한계를 극복하는 새로운 유형의 백도어 공격 기법 ($\mathtt{SynGhost}$)을 제시합니다.
문법적 전이를 이용한 백도어 삽입 및 대조 학습 기반의 공격 대상 선택 전략은 향후 백도어 공격 연구에 중요한 시사점을 제공합니다.
개발된 코드를 공개하여 (https://github.com/Zhou-CyberSecurity-AI/SynGhost) 추가 연구 및 방어 기법 개발을 촉진합니다.
한계점:
$\mathtt{SynGhost}$가 모든 종류의 방어 기법에 효과적인지에 대한 추가적인 연구가 필요합니다.
실제 환경에서의 $\mathtt{SynGhost}$ 공격의 효과 및 영향에 대한 더욱 심층적인 분석이 필요합니다.
$\mathtt{SynGhost}$에 대한 더욱 강력한 방어 기법 개발이 필요합니다.
👍