본 논문은 대규모 비전 언어 모델(LVLMs)이 악의적으로 주입되거나 변형된 입력 이미지에 취약하다는 점을 다룹니다. 기존 방어 방법들은 이미지 수정(특히 자르기)에 민감한 시각적 공격을 다루지만, 이러한 수정은 부분 이미지를 생성하고 의미론을 왜곡하여 투표 후 깨끗한 이미지에 대한 응답 품질을 저하시킵니다. 본 논문에서는 부분 이미지의 응답을 직접 투표에 사용하는 대신, 이를 사용하여 LVLM의 원본 이미지에 대한 응답을 감독하는 방법을 제시합니다. 부분 인식 감독(DPS)이라는 블랙박스, 무훈련 방식을 제안하는데, 이는 부분 이미지만 인식하는 모델이 생성한 응답을 사용하여 모델에 프롬프트를 제공하는 방식입니다. DPS를 통해 모델은 공격을 받을 때 부분 이미지 이해를 기반으로 응답을 조정하면서 깨끗한 입력에 대해서는 원래 응답을 자신 있게 유지할 수 있습니다. 실험 결과, 약한 모델이 강한 모델을 감독할 수 있음을 보여주며, 강한 모델은 공격을 받으면 자신감이 떨어지고 약한 모델의 부분적 이해를 바탕으로 응답을 조정하여 공격을 효과적으로 방어합니다. 세 가지 인기 모델에 대한 여섯 가지 데이터 세트에서 평균 공격 성공률을 76.3% 줄이는 것으로 나타났습니다.