본 논문은 비전 언어 모델(VLMs)의 적대적 공격에 대한 취약성을 해결하기 위해 효율적이고 효과적인 방어 기법인 ASTRA를 제안합니다. ASTRA는 유해한 응답 방향을 나타내는 전달 가능한 조향 벡터를 찾고, 추론 시 적응적 활성화 조향을 적용하여 이러한 방향을 제거함으로써 작동합니다. 적대적 이미지에서 시각 토큰을 임의로 제거하고 탈옥과 가장 강하게 연관된 토큰을 식별하여 효과적인 조향 벡터를 생성합니다. 추론 중에는 조향 벡터와 보정된 활성화 간의 투영을 수행하여 정상적인 입력에 대한 성능 저하를 최소화하면서 적대적 입력 하에서 유해한 출력을 강력하게 방지합니다. 다양한 모델과 기준에 대한 광범위한 실험을 통해 최첨단 성능과 높은 효율성을 입증하고, 보이지 않는 공격(구조 기반 공격, 투영 경사 하강 변형을 사용한 섭동 기반 공격, 텍스트 전용 공격)에 대한 우수한 전달성을 보여줍니다.