Este artículo investiga la precisión con la que los modelos lingüísticos multimodales a gran escala (MLLM) identifican la orientación de imágenes rotadas en diversos ángulos (0°, 90°, 180° y 270°). Para ello, presentamos RotBench, un benchmark filtrado manualmente de 350 imágenes que abarcan estilos de vida, retratos y paisajes. Evaluamos MLLM de vanguardia, tanto abiertos como propietarios, como GPT-5, o3 y Gemini-2.5-Pro, y demostramos que no identifican la rotación de imágenes de forma fiable. Proporcionar información adicional, como pies de foto o mapas de profundidad, o incitación a la cadena de pensamiento, solo mejora marginalmente el rendimiento. La mayoría de los modelos pueden identificar imágenes de 0°, y algunos pueden identificar imágenes de 180°, pero no pueden distinguir entre 90° y 270°. La presentación simultánea de imágenes en diversas orientaciones y el uso de métodos de votación han mejorado el rendimiento. Sin embargo, el ajuste fino mejora la identificación de imágenes de 180°, pero no la discriminación de 90° y 270°. En conclusión, demostramos que existe una brecha significativa entre la capacidad de razonamiento espacial de MLLM y la capacidad perceptiva humana.