Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

RotBench: Evaluación de modelos lingüísticos multimodales de gran tamaño para la identificación de la rotación de imágenes

Created by
  • Haebom

Autor

Tianyi Niu, Jaemin Cho, Elias Stengel-Eskin, Mohit Bansal

Describir

Este artículo investiga la precisión con la que los modelos lingüísticos multimodales a gran escala (MLLM) identifican la orientación de imágenes rotadas en diversos ángulos (0°, 90°, 180° y 270°). Para ello, presentamos RotBench, un benchmark filtrado manualmente de 350 imágenes que abarcan estilos de vida, retratos y paisajes. Evaluamos MLLM de vanguardia, tanto abiertos como propietarios, como GPT-5, o3 y Gemini-2.5-Pro, y demostramos que no identifican la rotación de imágenes de forma fiable. Proporcionar información adicional, como pies de foto o mapas de profundidad, o incitación a la cadena de pensamiento, solo mejora marginalmente el rendimiento. La mayoría de los modelos pueden identificar imágenes de 0°, y algunos pueden identificar imágenes de 180°, pero no pueden distinguir entre 90° y 270°. La presentación simultánea de imágenes en diversas orientaciones y el uso de métodos de votación han mejorado el rendimiento. Sin embargo, el ajuste fino mejora la identificación de imágenes de 180°, pero no la discriminación de 90° y 270°. En conclusión, demostramos que existe una brecha significativa entre la capacidad de razonamiento espacial de MLLM y la capacidad perceptiva humana.

Takeaways, Limitations

Takeaways: Demuestra claramente las limitaciones de las capacidades de razonamiento espacial de MLLM, en particular su capacidad para identificar rotaciones de imágenes. Proporciona información sobre la eficacia de proporcionar información adicional o ingeniería de impulsos. Sugiere estrategias para mejorar el rendimiento, como presentar imágenes rotadas en diferentes direcciones simultáneamente o utilizar la votación.
Limitations: La escala de RotBench es relativamente pequeña. El tipo de MLLM utilizado para la evaluación puede ser limitado. Existe la posibilidad de sesgo hacia ciertos tipos de imágenes. Se requiere más investigación para distinguir entre imágenes rotadas a 90° y 270°.
👍