DeepDefense: Layer-Wise Gradient-Feature Alignment for Building Robust Neural Networks

작성자

Haebom

카테고리

비어 있음

저자

Ci Lin, Tet Yeap, Iluju Kiringa, Biwei Zhang

개요

딥러닝 모델의 적대적 공격 취약성을 완화하기 위해 제안된 DeepDefense 프레임워크는 Gradient-Feature Alignment (GFA) 정규화를 여러 계층에 적용합니다. DeepDefense는 입력 그래디언트를 내부 특징 표현과 정렬하여 접선 방향에서 손실 풍경을 부드럽게 만들어 적대적 노이즈에 대한 모델의 민감도를 줄입니다. 이론적 분석을 통해 적대적 공격을 방사형 및 접선 성분으로 분해하고, 정렬이 대부분의 공격이 효과적인 접선 방향의 손실 변화를 억제한다는 것을 보여줍니다.

시사점, 한계점

•

GFA 정규화를 통해 적대적 공격에 대한 딥러닝 모델의 견고성을 향상시키는 새로운 방어 프레임워크 제안.

•

CIFAR-10 데이터셋에서 APGD 공격에 대해 최대 15.2%, FGSM 공격에 대해 최대 24.7%의 성능 향상.

•

DeepFool 및 EADEN과 같은 최적화 기반 공격에 대해 20~30배 더 높은 교란 크기를 요구하여 더 강력한 결정 경계와 평탄한 손실 풍경을 나타냄.

•

아키텍처에 독립적이며 구현이 용이함.

•

적대적 공격을 방어하는 데 있어 이론적 근거를 제시하지만, 다른 데이터셋이나 복잡한 공격 방식에 대한 성능 검증은 추가적으로 필요할 수 있음.

PDF 보기

Slashpage로 제작됨