다중 모달 대규모 언어 모델(MLLM)의 새로운 보안 취약성을 다룬 논문입니다. 시각 모달의 취약성과 코드 훈련 데이터의 긴 꼬리 분포 특성을 이용하여, 다층 방어 메커니즘을 점진적으로 우회하는 새로운 탈옥 프레임워크인 PiCo를 제시합니다. PiCo는 토큰 수준의 인쇄 오류 공격을 사용하여 입력 필터링을 회피하고, 프로그래밍 컨텍스트 지침 내에 유해한 의도를 포함하여 런타임 모니터링을 우회하는 계층별 탈옥 전략을 사용합니다. 공격의 영향을 종합적으로 평가하기 위해, 공격 후 모델 출력의 독성과 유용성을 모두 평가하는 새로운 평가 지표를 제안합니다. 코드 스타일의 시각적 지침 내에 유해한 의도를 포함하여, PiCo는 Gemini-Pro Vision에서 평균 공격 성공률(ASR) 84.13%, GPT-4에서 52.66%를 달성하여 이전 방법을 능가합니다. 실험 결과는 현재 방어의 심각한 결함을 강조하며, 고급 MLLM을 보호하기 위한 더 강력한 전략의 필요성을 강조합니다.