본 논문은 다중 모달 대규모 언어 모델(MLLM)의 탈옥 공격 방어를 위한 최초의 적대적 훈련(AT) 패러다임인 ProEAT을 제시합니다. 기존 AT를 MLLM에 적용하는 데 있어 매개변수 조정 및 다중 모달 공격에 대한 강건성 확보라는 두 가지 어려움을 해결하기 위해, ProEAT은 경량 프로젝터 계층에 집중하여 대규모 매개변수를 효율적으로 처리하고, 작업 요구 사항에 따라 손실 함수의 가중치 할당을 최적화하는 동적 가중치 조정 메커니즘을 도입합니다. 시각 및 텍스트 모달리티에 대한 공동 최적화 전략을 통해 어느 모달리티에서 발생하는 탈옥 공격에도 강력한 저항력을 확보합니다. 세 가지 주요 MLLM에 대한 다섯 가지 주요 탈옥 공격 방법에 대한 광범위한 실험을 통해 ProEAT이 최첨단 방어 성능을 달성하고 기존 기준선보다 평균 +34% 향상된 성능을 보이는 반면, 정상 정확도는 1%만 감소함을 보여줍니다. 실제 구현된 지능형 시스템에 대한 평가는 본 프레임워크의 실용성을 강조합니다.
시사점, 한계점
•
시사점:
◦
다중 모달 대규모 언어 모델(MLLM)의 탈옥 공격에 대한 효과적인 방어 기법인 ProEAT 제시.