Trong bài báo này, chúng tôi trình bày một phương pháp đánh giá mới để đánh giá khả năng suy luận thị giác phi cục bộ của các mô hình ngôn ngữ thị giác (VLM). Suy luận thị giác phi cục bộ là suy luận kết nối các dữ liệu thu thập được từ nhiều vùng của một hình ảnh, và chúng tôi phân loại nó thành ba loại: nhận thức so sánh, tìm kiếm nhảy cóc và tìm kiếm thị giác mượt mà. Các thí nghiệm của chúng tôi trên các VLM tiên tiến, bao gồm Gemini 2.5 Pro, Claude Vision 3.7 và GPT-o4-mini, cho thấy các mô hình này hầu như không vượt qua được độ chính xác ngẫu nhiên trong các tác vụ đơn giản của con người. Điều này cho thấy mặc dù VLM hoạt động tốt trên các chuẩn thị giác nguyên thủy, nhưng chúng thiếu các khả năng suy luận thị giác quan trọng. Nghiên cứu này cung cấp một bộ đánh giá có cấu trúc để xác minh liệu VLM có thể thực hiện các thuật toán thị giác giống con người hay không.