Bài báo này nghiên cứu mức độ chính xác của các mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM) trong việc xác định hướng của hình ảnh xoay ở nhiều góc độ khác nhau (0°, 90°, 180° và 270°). Để đạt được điều này, chúng tôi trình bày RotBench, một chuẩn mực được lọc thủ công gồm 350 hình ảnh bao gồm hình ảnh về phong cách sống, chân dung và phong cảnh. Chúng tôi đánh giá các MLLM mở và độc quyền tiên tiến, bao gồm GPT-5, o3 và Gemini-2.5-Pro, và chứng minh rằng chúng không thể xác định được độ xoay của hình ảnh một cách đáng tin cậy. Việc cung cấp thêm thông tin, chẳng hạn như chú thích hoặc bản đồ độ sâu hoặc gợi ý chuỗi suy nghĩ chỉ cải thiện hiệu suất một chút. Hầu hết các mô hình có thể xác định hình ảnh 0° và một số có thể xác định hình ảnh 180°, nhưng chúng không thể phân biệt giữa 90° và 270°. Việc trình bày đồng thời hình ảnh theo nhiều hướng khác nhau và sử dụng các phương pháp bỏ phiếu đã cải thiện hiệu suất. Tuy nhiên, việc tinh chỉnh cải thiện khả năng nhận dạng hình ảnh 180° nhưng không cải thiện khả năng phân biệt 90° và 270°. Tóm lại, chúng tôi chỉ ra rằng có một khoảng cách đáng kể giữa khả năng suy luận không gian của MLLM và khả năng nhận thức của con người.