Bài báo này đề xuất VISER (Cấu trúc đầu vào trực quan để tăng cường lý luận) để giải quyết những hạn chế của các mô hình ngôn ngữ trực quan (VLM) về khả năng lý luận trực quan của chúng. VLM gặp khó khăn trong việc kết nối các đặc điểm nhận thức với các tham chiếu trực quan một cách đáng tin cậy, dẫn đến lỗi trong các tác vụ như tính toán, tìm kiếm trực quan, mô tả cảnh và hiểu mối quan hệ không gian. VISER là một phương pháp đơn giản nhưng hiệu quả để tăng cường đầu vào trực quan bằng cấu trúc không gian cấp thấp và thêm các lời nhắc văn bản hướng dẫn phân tích cú pháp tuần tự và có nhận thức về không gian. Kết quả thử nghiệm chứng minh rằng VISER cải thiện đáng kể hiệu suất của nhiều tác vụ lý luận trực quan. Cụ thể, nó cải thiện độ chính xác tìm kiếm trực quan lên 25,00% và độ chính xác tính toán lên 26,83% trên GPT-4o, giảm lỗi khoảng cách chỉnh sửa trong mô tả cảnh xuống 0,32% và cải thiện hiệu suất mối quan hệ không gian trên tập dữ liệu tổng hợp 2D lên 9,50%. Điều này làm nổi bật tầm quan trọng của thiết kế đầu vào trực quan so với các phương pháp tiếp cận thuần túy về ngôn ngữ và cho thấy rằng cấu trúc trực quan cấp thấp đại diện cho một hướng mạnh mẽ và chưa được khám phá để tăng cường lý luận trực quan mang tính xây dựng.