본 논문은 시각 정보 등 다양한 모달리티를 통합한 다중 모달 대규모 언어 모델(MLLM)의 새로운 보안 취약점을 다룹니다. 특히 코드 훈련 데이터의 긴 꼬리 분포 특성과 시각 모달리티의 취약성을 이용하여, 다단계 방어 메커니즘을 점진적으로 우회하는 새로운 탈옥 프레임워크인 PiCo를 제시합니다. PiCo는 토큰 수준의 인쇄 오류 공격을 사용하여 입력 필터링을 회피하고, 프로그래밍 컨텍스트 명령어 내에 악의적인 의도를 삽입하여 런타임 모니터링을 우회하는 계층별 탈옥 전략을 채택합니다. 공격의 영향을 종합적으로 평가하기 위해 공격 후 모델 출력의 유해성과 유용성을 모두 평가하는 새로운 평가 지표를 제안합니다. 코드 스타일의 시각적 지시어에 악의적인 의도를 삽입하여, Gemini-Pro Vision에서는 평균 공격 성공률(ASR) 84.13%, GPT-4에서는 52.66%를 달성하여 기존 방법을 능가합니다. 실험 결과는 현재 방어의 심각한 허점을 강조하며, 고급 MLLM을 보호하기 위한 더욱 강력한 전략의 필요성을 보여줍니다.