최근 시각-언어-행동 (VLA) 모델의 발전에도 불구하고, 기존의 적대적 공격 방법은 비용이 많이 드는 end-to-end 훈련을 필요로 하고, 눈에 띄는 섭동 패치를 생성하는 문제점이 있다. ADVLA는 시각 인코더에서 텍스트 특징 공간으로 투영된 특징에 직접 적대적 섭동을 적용하는 프레임워크를 제안한다. ADVLA는 낮은 진폭 제약 조건 하에서 다운스트림 행동 예측을 효율적으로 방해하며, 주의 유도를 통해 섭동이 집중되고 희소하게 만들어진다. 세 가지 전략(민감도 향상, 희소성 적용, 섭동 집중)을 도입했다. 실험 결과, $L_{\infty}=4/255$ 제약 하에서 ADVLA는 Top-K 마스킹과 결합하여 10% 미만의 패치를 수정하면서도 거의 100%의 공격 성공률을 달성했다. 섭동은 중요한 영역에 집중되며, 전체 이미지에서 거의 감지할 수 없고, 단일 단계 반복에 약 0.06초가 소요되어 기존 패치 기반 공격보다 훨씬 우수하다. ADVLA는 낮은 진폭 및 지역 희소 조건 하에서 VLA 모델의 다운스트림 행동 예측을 효과적으로 약화시키며, 전통적인 패치 공격의 높은 훈련 비용과 눈에 띄는 섭동을 피하고, VLA 특징 공간 공격에 대한 독특한 효과와 실용적 가치를 보여준다.