Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Adversarial Semantic and Label Perturbation Attack for Pedestrian Attribute Recognition

Created by
  • Haebom

저자

Weizhe Kong, Xiao Wang, Ruichong Gao, Chenglong Li, Yu Zhang, Xing Yang, Yaowei Wang, Jin Tang

개요

본 논문은 심층 신경망 발전에도 불구하고 잠재적 취약성과 방해 저항력이 충분히 탐구되지 않은 보행자 속성 인식(PAR) 분야에 대해, 최초로 적대적 공격 및 방어 프레임워크를 제안합니다. CLIP 기반 PAR 프레임워크를 기반으로, 전역 및 패치 수준 공격을 활용하여 이미지를 비겹치는 패치로 나누고 투영 계층을 사용하여 특징 임베딩으로 변환합니다. 속성 집합은 프롬프트를 사용하여 문장으로 확장되고, 사전 훈련된 CLIP 텍스트 인코더를 사용하여 속성 특징으로 임베딩됩니다. 다중 모드 Transformer를 사용하여 시각 및 텍스트 토큰을 융합하고, 피드포워드 네트워크를 사용하여 속성 인식을 수행합니다. 적대적 의미 및 레이블 섭동을 사용하여 ASL-PAR이라는 적대적 노이즈를 생성하고, 의미적 오프셋 방어 전략을 설계하여 적대적 공격의 영향을 억제합니다. 디지털 도메인(PETA, PA100K, MSP60K, RAPv2)과 물리적 도메인 모두에서 광범위한 실험을 통해 제안된 적대적 공격 및 방어 전략의 효과를 검증하였으며, 소스 코드는 https://github.com/Event-AHU/OpenPAR 에서 공개될 예정입니다.

시사점, 한계점

시사점:
보행자 속성 인식(PAR)에 대한 최초의 적대적 공격 및 방어 프레임워크 제시.
전역 및 패치 수준 공격을 모두 고려한 포괄적인 접근 방식.
CLIP 기반의 다중 모달 접근 방식을 통한 향상된 성능.
디지털 및 물리적 도메인에서의 효과 검증.
오픈소스 코드 공개를 통한 연구 확장 가능성 제시.
한계점:
제안된 방어 전략의 일반화 성능에 대한 추가적인 연구 필요.
더욱 다양하고 강력한 적대적 공격에 대한 저항력 평가 필요.
실제 환경에서의 robustness에 대한 추가적인 검증 필요.
특정 데이터셋에 대한 의존성 및 다른 데이터셋으로의 일반화 가능성에 대한 추가 연구 필요.
👍