Sign In

From Pixels to Trajectory: Universal Adversarial Example Detection via Temporal Imprints

Created by
  • Haebom
Category
Empty

저자

Yansong Gao, Huaibing Peng, Hua Ma, Zhiyang Dai, Shuo Wang, Hongsheng Hu, Anmin Fu, Minhui Xue

개요

본 논문은 최초로 적대적 예시(AE) 공격에 의한 시간적(또는 역사적) 궤적의 흔적을 밝혀냈습니다. 기존 연구들이 대상이 되는 기저 모델 내의 공간적(또는 정적) 흔적에 초점을 맞춘 것과는 달리, 본 논문은 이러한 공격을 이해하기 위한 새로운 시간적 패러다임을 제시합니다. 가장 중요한 발견은 이러한 흔적이 분류 및 회귀와 같은 다양한 작업과 이미지, 텍스트, 오디오를 포함한 여러 모달리티에 걸쳐 단일 손실 지표 내에 캡슐화되어 있다는 점입니다. 적대적 예시와 정상적인 예시 간 손실의 고유한 특성을 인식하여, 본 논문에서는 AE 탐지를 위해 TRAIT(TRaceable Adversarial temporal trajectory ImprinTs)를 제안합니다. TRAIT는 공격에 대한 사전 지식 없이 최소한의 가정 하에 작동하므로, 탐지 문제를 단일 클래스 분류 문제로 구성합니다. 그러나 들어오는 입력에 대한 정답이 없기 때문에 적대적 예시와 정상적인 예시의 생성된 합성 손실 간의 상당한 중복으로 인해 AE 탐지에는 여전히 어려움이 있습니다. TRAIT는 시간적 특성에서 영감을 얻어 합성 손실을 스펙트럼 시그니처로 변환하고, 빠른 푸리에 변환 기법을 사용하여 차이점을 강조하여 시간 시리즈 신호와 유사하게 처리합니다. SMACK(USENIX Sec'2023)을 포함한 12가지 AE 공격에 걸쳐 TRAIT는 포괄적으로 평가된 모달리티, 작업, 데이터 세트 및 모델 아키텍처에서 일관되게 뛰어난 성능을 보여줍니다. 모든 시나리오에서 TRAIT는 1%의 거부율을 유지하면서 97%를 초과하고, 종종 약 99%에 달하는 AE 탐지 정확도를 달성합니다. TRAIT는 공식화된 강력한 적응형 공격에서도 효과적입니다.

시사점, 한계점

시사점:
적대적 예시 공격에 대한 새로운 시간적 패러다임 제시
다양한 작업과 모달리티에 걸쳐 적용 가능한 단일 손실 지표 기반 AE 탐지 가능성 제시
사전 지식 없이도 높은 정확도로 AE 탐지 가능
강력한 적응형 공격에도 효과적임을 증명
한계점:
들어오는 입력에 대한 정답이 없어 적대적 예시와 정상적인 예시의 합성 손실 간 중복 문제 존재
TRAIT의 성능은 사용된 데이터셋과 모델 아키텍처에 따라 달라질 수 있음 (추가적인 연구 필요)
👍