Bài báo này đánh giá hiệu suất của các mô hình đa phương thức phổ biến như GPT-4o, o4-mini, Gemini 1.5 Pro, Gemini 2.0 Flash, Claude 3.5 Sonnet, Qwen2-VL và Llama 3.2 trên các tác vụ thị giác máy tính (phân tích ngữ nghĩa phân đoạn, phát hiện đối tượng, phân loại hình ảnh và dự đoán pháp tuyến bề mặt và độ sâu) bằng cách sử dụng các tập dữ liệu chuẩn như COCO và ImageNet. Chúng tôi khắc phục những khó khăn mà các mô hình ban đầu được tối ưu hóa cho đầu ra văn bản và một số chỉ có thể truy cập thông qua API bằng cách sử dụng chuỗi nhắc để xây dựng một khuôn khổ đánh giá chuẩn hóa. Kết quả là, mặc dù các mô hình này không bằng các mô hình thị giác máy tính chuyên nghiệp, nhưng chúng cho thấy khả năng khái quát hóa đáng kể mặc dù được đào tạo chủ yếu trên hình ảnh-văn bản và thực hiện tốt hơn trên các tác vụ ngữ nghĩa so với các tác vụ hình học. GPT-4o thực hiện tốt nhất trong số các mô hình không suy luận và các mô hình suy luận cho thấy hiệu suất được cải thiện trên các tác vụ hình học. Tuy nhiên, các mô hình có khả năng tạo hình ảnh như GPT-4o lại gặp các vấn đề như ảo giác và sai lệch không gian.