Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

¿Qué tan bien comprende GPT-4o la visión? Evaluación de modelos de base multimodales en tareas estándar de visión artificial.

Created by
  • Haebom

Autor

Rahul Ramachandran, Ali Garjani, Roman Bachmann, Andrei Atanov, O\u{g}uzhan Fatih Kar, Amir Zamir

Describir

Este artículo evalúa el rendimiento de modelos multimodales populares, como GPT-4o, o4-mini, Gemini 1.5 Pro, Gemini 2.0 Flash, Claude 3.5 Sonnet, Qwen2-VL y Llama 3.2, en tareas de visión artificial (análisis semántico segmentado, detección de objetos, clasificación de imágenes y predicción de profundidad y normal a la superficie) utilizando conjuntos de datos estándar como COCO e ImageNet. Superamos las dificultades de que los modelos estén originalmente optimizados para la salida de texto y algunos solo sean accesibles a través de API mediante encadenamiento de indicaciones para construir un marco de evaluación comparativa estandarizado. Como resultado, aunque estos modelos no alcanzan a los modelos profesionales de visión artificial, muestran una considerable capacidad de generalización a pesar de estar entrenados principalmente en imagen-texto y se desempeñan mejor en tareas semánticas que en tareas geométricas. GPT-4o presenta el mejor rendimiento entre los modelos sin inferencia, y los modelos de inferencia muestran un rendimiento mejorado en tareas geométricas. Sin embargo, los modelos con capacidades de generación de imágenes, como GPT-4o, presentan problemas como alucinaciones y desalineación espacial.

Takeaways, Limitations

Takeaways:
Demostramos que los modelos basados en multimodales demuestran una capacidad de generalización significativa en tareas de visión por computadora con solo aprendizaje basado en imagen y texto.
Presentamos la posibilidad de aplicar modelos multimodales a tareas de visión por computadora a través de ingeniería rápida.
Sugerir futuras direcciones de desarrollo de modelos analizando las diferencias de rendimiento y las fortalezas/debilidades de los modelos (por ejemplo, mejorar el rendimiento de tareas geométricas, resolver alucinaciones y errores espaciales).
Presentamos un punto de referencia para el rendimiento de la visión artificial de modelos multimodales de última generación, incluido GPT-4o.
Limitations:
No todos los modelos utilizados para la evaluación comparativa son los modelos más recientes, y algunos solo son accesibles a través de API, lo que limita la evaluación del rendimiento.
Debido a que la técnica de encadenamiento de indicaciones afecta el rendimiento del modelo, es necesario tener cuidado al interpretar los resultados.
Los problemas de ilusión y desalineación espacial en modelos con capacidades de generación de imágenes requieren más estudios.
Sólo se evalúa un número limitado de tareas, en lugar de una evaluación integral de una variedad de tareas de visión por computadora.
👍