Bài báo này đề cập đến lỗ hổng của các mô hình ngôn ngữ thị giác quy mô lớn (LVLM) trước các hình ảnh đầu vào bị chèn hoặc thay đổi một cách ác ý. Các phương pháp phòng thủ hiện có giải quyết các cuộc tấn công thị giác dễ bị sửa đổi hình ảnh (cắt xén một phần), nhưng những sửa đổi này tạo ra các hình ảnh một phần và làm méo mó ngữ nghĩa, làm giảm chất lượng phản hồi đối với hình ảnh sạch sau khi bỏ phiếu. Thay vì sử dụng trực tiếp các phản hồi hình ảnh một phần để bỏ phiếu, bài báo này đề xuất một phương pháp giám sát các phản hồi LVLM đối với hình ảnh gốc. Chúng tôi đề xuất một phương pháp hộp đen, không cần đào tạo, được gọi là giám sát nhận biết một phần (DPS), sử dụng các phản hồi được tạo ra bởi một mô hình chỉ nhận dạng các hình ảnh một phần để cung cấp lời nhắc cho mô hình. DPS cho phép mô hình điều chỉnh các phản hồi của nó dựa trên sự hiểu biết hình ảnh một phần của nó khi bị tấn công, đồng thời tự tin duy trì các phản hồi ban đầu của nó đối với các đầu vào sạch. Kết quả thực nghiệm chứng minh rằng một mô hình yếu có thể giám sát một mô hình mạnh. Mô hình mạnh, khi bị tấn công, sẽ mất đi sự tự tin và điều chỉnh các phản hồi của nó dựa trên sự hiểu biết một phần của mô hình yếu, từ đó phòng thủ hiệu quả trước các cuộc tấn công. Trên sáu tập dữ liệu của ba mô hình phổ biến, chúng tôi chứng minh tỷ lệ thành công tấn công trung bình giảm 76,3%.