# Steering Away from Harm: An Adaptive Approach to Defending Vision Language Model Against Jailbreaks

### 저자

Han Wang, Gang Wang, Huan Zhang

### 개요

본 논문은 비전 언어 모델(VLMs)의 적대적 공격에 대한 취약성을 해결하기 위해 효율적이고 효과적인 방어 기법인 ASTRA를 제안합니다.  ASTRA는 유해한 응답 방향을 나타내는 전달 가능한 조향 벡터를 찾고, 추론 시 적응적 활성화 조향을 적용하여 이러한 방향을 제거함으로써 작동합니다.  적대적 이미지에서 시각 토큰을 임의로 제거하고 탈옥과 가장 강하게 연관된 토큰을 식별하여 효과적인 조향 벡터를 생성합니다. 추론 중에는 조향 벡터와 보정된 활성화 간의 투영을 수행하여 정상적인 입력에 대한 성능 저하를 최소화하면서 적대적 입력 하에서 유해한 출력을 강력하게 방지합니다. 다양한 모델과 기준에 대한 광범위한 실험을 통해 최첨단 성능과 높은 효율성을 입증하고,  보이지 않는 공격(구조 기반 공격, 투영 경사 하강 변형을 사용한 섭동 기반 공격, 텍스트 전용 공격)에 대한 우수한 전달성을 보여줍니다.

### 시사점, 한계점

- **시사점:**

    - VLMs의 적대적 공격에 대한 효율적이고 효과적인 새로운 방어 기법 ASTRA 제시.

    - 기존 방어 기법보다 높은 효율성과 우수한 성능을 보임.

    - 다양한 유형의 적대적 공격에 대한 강력한 방어력과 우수한 전달성을 입증.

    - 오픈소스 코드 공개를 통한 접근성 향상.

- **한계점:**

    - ASTRA의 성능이 다양한 VLM 아키텍처와 적대적 공격에 대해 얼마나 일반화될 수 있는지에 대한 추가적인 연구가 필요할 수 있음.

    - 새로운 유형의 적대적 공격이 등장할 경우 ASTRA의 효과성이 저하될 가능성 존재.

    - 실제 환경 적용 시 발생할 수 있는 추가적인 비용 및 제약 사항에 대한 더 자세한 분석이 필요할 수 있음.

[PDF 보기](https://arxiv.org/pdf/2411.16721)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
