Sign In

REFINE: Inversion-Free Backdoor Defense via Model Reprogramming

Created by
  • Haebom
Category
Empty

저자

Yukun Chen, Shuo Shao, Enhao Huang, Yiming Li, Pin-Yu Chen, Zhan Qin, Kui Ren

개요

본 논문은 딥 뉴럴 네트워크(DNN)에 대한 백도어 공격 방어를 위한 새로운 방법인 REFINE을 제안합니다. 기존의 전처리 기반 방어 기법들이 모델 유용성과 방어 성능 간의 균형을 맞추지 못하거나, 백도어 트리거 패턴을 정확하게 재구성하는 데 어려움을 겪는 문제점을 해결하기 위해, REFINE은 모델 재프로그래밍 기반의 inversion-free 방어 기법을 제시합니다. REFINE은 입력 변환 모듈과 출력 재매핑 모듈로 구성되어 있으며, 지도형 대조 손실(supervised contrastive loss)을 통합하여 방어 성능을 향상시키면서 모델 유용성을 유지합니다. 다양한 벤치마크 데이터셋에서의 실험을 통해 REFINE의 효과와 적응형 공격에 대한 저항성을 입증합니다.

시사점, 한계점

시사점:
기존 전처리 기반 백도어 방어의 한계점(모델 유용성과 방어 성능 간의 trade-off, 백도어 트리거 패턴 재구성의 어려움)을 극복하는 새로운 방어 기법 제시.
모델 재프로그래밍 기반의 inversion-free 접근 방식을 통해 백도어 트리거에 대한 사전 지식 없이도 효과적인 방어 가능성을 보여줌.
지도형 대조 손실을 통합하여 방어 성능 향상 및 모델 유용성 유지.
다양한 벤치마크 데이터셋 실험을 통한 REFINE의 효과 및 적응형 공격에 대한 저항성 검증.
한계점:
제안된 방법의 일반화 성능 및 다양한 백도어 공격 유형에 대한 로버스트니스에 대한 추가 연구 필요.
실제 환경에서의 적용 가능성 및 성능 평가에 대한 추가 연구 필요.
REFINE의 계산 비용 및 메모리 요구량에 대한 분석 필요.
👍