본 논문은 심층 신경망 발전에도 불구하고 잠재적 취약성과 방해 저항력이 충분히 탐구되지 않은 보행자 속성 인식(PAR) 분야에 대해, 최초로 적대적 공격 및 방어 프레임워크를 제안합니다. CLIP 기반 PAR 프레임워크를 기반으로, 전역 및 패치 수준 공격을 활용하여 이미지를 비겹치는 패치로 나누고 투영 계층을 사용하여 특징 임베딩으로 변환합니다. 속성 집합은 프롬프트를 사용하여 문장으로 확장되고, 사전 훈련된 CLIP 텍스트 인코더를 사용하여 속성 특징으로 임베딩됩니다. 다중 모드 Transformer를 사용하여 시각 및 텍스트 토큰을 융합하고, 피드포워드 네트워크를 사용하여 속성 인식을 수행합니다. 적대적 의미 및 레이블 섭동을 사용하여 ASL-PAR이라는 적대적 노이즈를 생성하고, 의미적 오프셋 방어 전략을 설계하여 적대적 공격의 영향을 억제합니다. 디지털 도메인(PETA, PA100K, MSP60K, RAPv2)과 물리적 도메인 모두에서 광범위한 실험을 통해 제안된 적대적 공격 및 방어 전략의 효과를 검증하였으며, 소스 코드는 https://github.com/Event-AHU/OpenPAR 에서 공개될 예정입니다.