Các mô hình ngôn ngữ thị giác (VLM) hiện có bị ảnh hưởng bởi ảo giác thị giác, một hiện tượng trong đó các phản hồi được tạo ra chứa các thông tin không chính xác, không liên quan đến đầu vào thị giác. Các nỗ lực giải quyết vấn đề này mà không tinh chỉnh mô hình chủ yếu làm giảm ảo giác bằng cách giảm độ lệch ngôn ngữ về độ tương phản hoặc khuếch đại trọng số của các nhúng thị giác trong quá trình giải mã. Tuy nhiên, các phương pháp này bị hạn chế về khả năng nắm bắt các chi tiết thị giác tinh tế. Trong nghiên cứu này, chúng tôi đề xuất Perception Magnifier (PM), một phương pháp giải mã thị giác mới, cô lập lặp đi lặp lại các mã thông báo thị giác có liên quan và phóng đại các vùng này dựa trên các cơ chế chú ý, từ đó hướng dẫn mô hình tập trung vào các chi tiết thị giác tinh tế trong quá trình giải mã. PM tăng cường khả năng giám sát đầu vào thị giác của VLM bằng cách phóng đại các vùng quan trọng, đồng thời bảo toàn thông tin về cấu trúc và ngữ cảnh ở mỗi bước giải mã, cho phép nó tạo ra các phản hồi chính xác và trung thực hơn. Các kết quả thử nghiệm mở rộng chứng minh rằng PM không chỉ làm giảm ảo giác mà còn tăng cường khả năng sản xuất ngôn ngữ, đồng thời duy trì khả năng suy luận mạnh mẽ.