# Fast Adversarial Training with Weak-to-Strong Spatial-Temporal Consistency in the Frequency Domain on Videos

### 저자

Songping Wang, Hanqing Liu, Yueming Lyu, Xiantao Hu, Ziwen He, Wei Wang, Caifeng Shan, Liang Wang

### 개요

본 논문은 비디오 인식 과제에서 적대적 훈련(AT)의 효과를 제한하는 두 가지 주요 과제, 즉 느린 훈련 속도와 정상 정확도와 적대적 강건성 간의 상충 관계를 해결하기 위해 Video Fast Adversarial Training with Weak-to-Strong consistency (VFAT-WS)를 제안합니다. VFAT-WS는 시간 주파수 증강(TF-AUG) 및 공간-시간 향상 형태인 STF-AUG와 단일 단계 PGD 공격을 통합하여 훈련 효율성과 강건성을 높입니다. 또한, 간단한 TF-AUG에서 더 복잡한 STF-AUG로 학습 과정을 유도하는 약-강 공간-시간 일관성 정규화를 고안하여 정상 정확도와 강건성 간의 균형을 개선합니다. UCF-101 및 HMDB-51 데이터셋에서 CNN 및 Transformer 기반 모델을 사용한 실험 결과, VFAT-WS는 적대적 강건성과 손상 강건성을 크게 향상시키는 동시에 훈련 속도를 약 490% 향상시키는 것으로 나타났습니다.

### 시사점, 한계점

- **시사점:**

    - 비디오 데이터에 대한 빠른 적대적 훈련 방법을 최초로 제시.

    - 시간 주파수 증강 및 약-강 일관성 정규화를 통해 훈련 효율성과 적대적 강건성을 향상.

    - 정상 정확도와 적대적 강건성 간의 균형을 개선.

    - UCF-101 및 HMDB-51 데이터셋에서 CNN 및 Transformer 기반 모델 모두에서 성능 향상을 입증.

    - 기존 방법보다 훈련 속도를 약 490% 향상.

- **한계점:**

    - 제안된 방법의 일반화 성능에 대한 추가적인 연구가 필요.

    - 다양한 적대적 공격에 대한 강건성 평가가 더 필요.

    - 다른 비디오 데이터셋에 대한 실험 결과가 필요.

[PDF 보기](https://arxiv.org/pdf/2504.14921)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
