Jailbreaking Large Vision Language Models in Intelligent Transportation Systems
Created by
Haebom
Category
Empty
저자
Badhan Chandra Das, Md Tasnim Jawad, Md Jueal Mia, M. Hadi Amini, Yanzhao Wu
개요
본 논문은 지능형 교통 시스템(ITS)에 통합된 대규모 비전 언어 모델(LVLM)의 취약점을 체계적으로 분석하고, 이미지 타이포그래피 조작 및 멀티턴 프롬프팅을 활용한 새로운 jailbreaking 공격을 제시한다. 유해 쿼리 데이터셋을 구축하고, 최첨단 LVLM에 대한 광범위한 실험을 통해 제안된 공격과 방어 기법을 평가한다.
시사점, 한계점
•
시사점:
◦
ITS에 통합된 LVLM의 취약성을 밝혀, jailbreaking 공격의 심각한 보안 위험을 강조.
◦
이미지 타이포그래피 조작 및 멀티턴 프롬프팅을 활용한 새로운 jailbreaking 공격 기법 제안.
◦
LVLM의 부적절한 응답 생성을 방지하기 위한 다층 응답 필터링 방어 기법 제안.
◦
GPT-4를 활용한 독성 점수 평가 및 수동 검증을 통해 공격 및 방어 기법의 효과를 검증.
•
한계점:
◦
구체적인 방어 기술의 구현 및 성능에 대한 상세 정보 부족.
◦
제안된 공격 및 방어 기법이 다른 LVLM 모델 및 다양한 공격 시나리오에 얼마나 일반화될 수 있는지에 대한 추가 연구 필요.