Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

PiCo: Jailbreaking Multimodal Large Language Models via $\textbf{Pi}$ctorial $\textbf{Co}$de Contextualization

Created by
  • Haebom

저자

Aofan Liu, Lulu Tang, Ting Pan, Yuguo Yin, Bin Wang, Ao Yang

개요

다중 모달 대규모 언어 모델(MLLM)의 새로운 보안 취약성을 다룬 논문입니다. 시각 모달의 취약성과 코드 훈련 데이터의 긴 꼬리 분포 특성을 이용하여, 다층 방어 메커니즘을 점진적으로 우회하는 새로운 탈옥 프레임워크인 PiCo를 제시합니다. PiCo는 토큰 수준의 인쇄 오류 공격을 사용하여 입력 필터링을 회피하고, 프로그래밍 컨텍스트 지침 내에 유해한 의도를 포함하여 런타임 모니터링을 우회하는 계층별 탈옥 전략을 사용합니다. 공격의 영향을 종합적으로 평가하기 위해, 공격 후 모델 출력의 독성과 유용성을 모두 평가하는 새로운 평가 지표를 제안합니다. 코드 스타일의 시각적 지침 내에 유해한 의도를 포함하여, PiCo는 Gemini-Pro Vision에서 평균 공격 성공률(ASR) 84.13%, GPT-4에서 52.66%를 달성하여 이전 방법을 능가합니다. 실험 결과는 현재 방어의 심각한 결함을 강조하며, 고급 MLLM을 보호하기 위한 더 강력한 전략의 필요성을 강조합니다.

시사점, 한계점

시사점:
MLLM의 시각 모달 및 코드 훈련 데이터의 취약성을 이용한 새로운 탈옥 프레임워크(PiCo) 제시.
기존 방법보다 높은 공격 성공률 달성 (Gemini-Pro Vision: 84.13%, GPT-4: 52.66%).
MLLM 보안 강화를 위한 더욱 강력한 방어 전략 필요성 제기.
공격 후 모델 출력의 독성 및 유용성을 평가하는 새로운 평가 지표 제안.
한계점:
PiCo의 효과는 특정 MLLM (Gemini-Pro Vision, GPT-4)에 대한 실험 결과에 국한될 수 있음.
새로운 방어 메커니즘이 개발될 경우 PiCo의 효과가 감소할 가능성 있음.
평가 지표의 객관성 및 일반화 가능성에 대한 추가 연구 필요.
👍