Cet article étudie la précision avec laquelle les modèles linguistiques multimodaux à grande échelle (MLLM) identifient l'orientation d'images pivotées selon différents angles (0°, 90°, 180° et 270°). Pour ce faire, nous présentons RotBench, un benchmark filtré manuellement de 350 images, comprenant des images de style de vie, de portrait et de paysage. Nous évaluons des MLLM ouverts et propriétaires de pointe, notamment GPT-5, o3 et Gemini-2.5-Pro, et démontrons leur incapacité à identifier de manière fiable la rotation des images. L'ajout d'informations supplémentaires, telles que des légendes ou des cartes de profondeur, ou l'incitation à la réflexion n'améliore que marginalement les performances. La plupart des modèles peuvent identifier les images à 0°, et certains à 180°, mais ils ne peuvent pas faire la distinction entre 90° et 270°. La présentation simultanée d'images selon différentes orientations et l'utilisation de méthodes de vote ont amélioré les performances. Cependant, le réglage fin améliore l'identification des images à 180°, mais pas la discrimination à 90° et 270°. En conclusion, nous montrons qu'il existe un écart significatif entre la capacité de raisonnement spatial du MLLM et la capacité perceptive humaine.