Bài báo này tiết lộ một hiện tượng trong đó các mô hình ngôn ngữ thị giác quy mô lớn (LVLM) nhận thức nhầm các đầu vào văn bản mà không có bằng chứng trực quan là một phần của hình ảnh, dẫn đến lỗi. Bằng cách nghiên cứu khả năng của LVLM trong việc xác định xem các khái niệm văn bản có bắt nguồn từ hình ảnh hay không, chúng tôi đã phát hiện ra các nơ-ron nhận thức sự vắng mặt thị giác (VA), một tập hợp con cụ thể của các nơ-ron mạng truyền thẳng (FFN) báo hiệu sự vắng mặt thị giác bằng một mẫu kích hoạt duy nhất. Tận dụng mẫu này, chúng tôi phát triển một mô-đun phát hiện phân loại các mã thông báo đầu vào thành có gốc trực quan. Dựa trên dự đoán này, chúng tôi đề xuất một phương pháp để cải thiện đầu ra bằng cách diễn giải lại lời nhắc câu hỏi hoặc thay thế các mã thông báo vắng mặt được phát hiện trong quá trình tạo. Các thí nghiệm mở rộng chứng minh rằng phương pháp được đề xuất làm giảm hiệu quả xu hướng đưa ra các giả định không chính xác của mô hình về sự hiện diện trực quan và có thể khái quát hóa trên nhiều LVLM khác nhau.