Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment

Created by
  • Haebom

저자

Soumya Suvra Ghosal, Souradip Chakraborty, Vaibhav Singh, Tianrui Guan, Mengdi Wang, Alvaro Velasquez, Ahmad Beirami, Furong Huang, Dinesh Manocha, Amrit Singh Bedi

개요

다양한 시각적 추론 작업에 다중 모달 대규모 언어 모델(MLLM)이 널리 배포됨에 따라 안전성 향상이 중요해졌습니다. 본 연구는 안전성 훈련만으로는 탈옥 공격에 취약하다는 점을 강조합니다. 이에 본 논문에서는 제어된 디코딩을 통해 안전한 보상 모델을 활용하는 추론 시간 방어 프레임워크인 Immune을 제안합니다. Immune의 수학적 특성을 분석하여 탈옥 공격에 대한 안전성 향상 이유를 설명하고, 다양한 탈옥 벤치마크에 대한 광범위한 평가를 통해 모델 안전성을 효과적으로 향상시키면서 원래 기능을 유지함을 보여줍니다. 예를 들어, LLaVA-1.6에 대한 텍스트 기반 탈옥 공격에 대해 Immune은 기본 MLLM과 최첨단 방어 전략에 비해 공격 성공률을 각각 57.82%와 16.78% 감소시켰습니다.

시사점, 한계점

시사점:
안전성 훈련만으로는 MLLM의 탈옥 공격 방어에 충분하지 않다는 것을 보여줌.
추론 시간 방어 프레임워크 Immune을 통해 MLLM의 안전성을 효과적으로 향상시킬 수 있음을 증명.
Immune의 수학적 분석을 통해 안전성 향상의 이유를 제공.
다양한 벤치마크 실험을 통해 Immune의 우수성을 입증.
한계점:
Immune의 일반화 성능에 대한 추가 연구 필요.
다양한 유형의 멀티모달 탈옥 공격에 대한 포괄적인 평가 필요.
계산 비용 및 성능 저하에 대한 분석 필요.
👍