본 논문은 시각 언어 모델에 대한 새로운 유형의 간접적이고 교차 모달 주입 공격인 자기 해석 이미지 생성 방법을 제시합니다. 자기 해석 이미지는 모델이 이미지에 대한 사용자 질문에 답하는 방식을 제어하고, 공격자가 선택한 스타일, 감정 또는 관점을 표현하도록 모델의 출력을 조종하는 숨겨진 "메타 지시"를 포함합니다. 이러한 이미지는 소프트 프롬프트 역할을 하며, 시각적 콘텐츠를 기반으로 답변을 생성하면서 동시에 공격자의 (메타) 목표를 충족하도록 모델을 조절합니다. 메타 지시는 따라서 프롬프트 주입의 더 강력한 형태입니다. 공격적인 이미지는 자연스러워 보이고 모델의 답변은 일관되고 그럴듯하지만, 공격자가 선택한 해석(예: 정치적 왜곡) 또는 명시적 텍스트 지시로는 달성할 수 없는 목표를 따릅니다. 다양한 모델, 해석 및 사용자 프롬프트에 대한 자기 해석 이미지의 효과를 평가하고, 스팸, 허위 정보 또는 왜곡을 전달하는 자기 해석 콘텐츠 생성을 통해 어떻게 피해를 입힐 수 있는지 설명하며, 마지막으로 방어에 대해 논의합니다.