Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

RotBench : Évaluation de modèles linguistiques multimodaux de grande taille pour l'identification de la rotation d'images

Created by
  • Haebom

Auteur

Tianyi Niu, Jaemin Cho, Elias Stengel-Eskin, Mohit Bansal

Contour

Cet article étudie la précision avec laquelle les modèles linguistiques multimodaux à grande échelle (MLLM) identifient l'orientation d'images pivotées selon différents angles (0°, 90°, 180° et 270°). Pour ce faire, nous présentons RotBench, un benchmark filtré manuellement de 350 images, comprenant des images de style de vie, de portrait et de paysage. Nous évaluons des MLLM ouverts et propriétaires de pointe, notamment GPT-5, o3 et Gemini-2.5-Pro, et démontrons leur incapacité à identifier de manière fiable la rotation des images. L'ajout d'informations supplémentaires, telles que des légendes ou des cartes de profondeur, ou l'incitation à la réflexion n'améliore que marginalement les performances. La plupart des modèles peuvent identifier les images à 0°, et certains à 180°, mais ils ne peuvent pas faire la distinction entre 90° et 270°. La présentation simultanée d'images selon différentes orientations et l'utilisation de méthodes de vote ont amélioré les performances. Cependant, le réglage fin améliore l'identification des images à 180°, mais pas la discrimination à 90° et 270°. En conclusion, nous montrons qu'il existe un écart significatif entre la capacité de raisonnement spatial du MLLM et la capacité perceptive humaine.

Takeaways, Limitations

Takeaways : Démontre clairement les limites des capacités de raisonnement spatial de MLLM, notamment sa capacité à identifier les rotations d'images. Donne un aperçu de l'efficacité de la fourniture d'informations supplémentaires ou d'une ingénierie rapide. Propose des stratégies d'amélioration des performances, telles que la présentation simultanée d'images tournées dans différentes directions ou le recours au vote.
Limitations : L'échelle de RotBench est relativement petite. Le type de MLLM utilisé pour l'évaluation peut être limité. Il existe un risque de biais en faveur de certains types d'images. Des recherches supplémentaires sont nécessaires pour distinguer les images pivotées à 90° et à 270°.
👍