Adversarial Training for Multimodal Large Language Models against Jailbreak Attacks

작성자

Haebom

카테고리

Empty

저자

Liming Lu, Shuchao Pang, Siyuan Liang, Haotian Zhu, Xiyu Zeng, Aishan Liu, Yunhuai Liu, Yongbin Zhou

개요

본 논문은 다중 모달 대규모 언어 모델(MLLM)의 탈옥 공격 방어를 위한 최초의 적대적 훈련(AT) 패러다임인 ProEAT을 제시합니다. 기존 AT를 MLLM에 적용하는 데 있어 매개변수 조정 및 다중 모달 공격에 대한 강건성 확보라는 두 가지 어려움을 해결하기 위해, ProEAT은 경량 프로젝터 계층에 집중하여 대규모 매개변수를 효율적으로 처리하고, 작업 요구 사항에 따라 손실 함수의 가중치 할당을 최적화하는 동적 가중치 조정 메커니즘을 도입합니다. 시각 및 텍스트 모달리티에 대한 공동 최적화 전략을 통해 어느 모달리티에서 발생하는 탈옥 공격에도 강력한 저항력을 확보합니다. 세 가지 주요 MLLM에 대한 다섯 가지 주요 탈옥 공격 방법에 대한 광범위한 실험을 통해 ProEAT이 최첨단 방어 성능을 달성하고 기존 기준선보다 평균 +34% 향상된 성능을 보이는 반면, 정상 정확도는 1%만 감소함을 보여줍니다. 실제 구현된 지능형 시스템에 대한 평가는 본 프레임워크의 실용성을 강조합니다.

시사점, 한계점

•

시사점:

◦

다중 모달 대규모 언어 모델(MLLM)의 탈옥 공격에 대한 효과적인 방어 기법인 ProEAT 제시.

◦

기존 방어 기법 대비 평균 34% 향상된 방어 성능 달성.

◦

정상적인 성능 저하를 최소화하면서(1% 감소) 높은 방어 성능 확보.

◦

실제 구현된 지능형 시스템에서의 실용성 검증.

◦

경량 프로젝터 계층 기반의 효율적인 적대적 훈련 아키텍처 제시.

◦

동적 가중치 조정 메커니즘을 통한 효율적인 매개변수 조정.

◦

다중 모달리티에 대한 공동 최적화 전략을 통한 강건한 방어 성능 확보.

•

한계점:

◦

본 논문에서 제시된 ProEAT의 일반화 성능에 대한 추가적인 연구 필요.

◦

새로운 유형의 탈옥 공격에 대한 ProEAT의 안정성 평가 필요.

◦

더욱 다양한 MLLM 및 탈옥 공격 기법에 대한 실험 확대 필요.

◦

계산 비용 및 메모리 사용량에 대한 자세한 분석 필요.

PDF 보기

Made with Slashpage