[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

¿Tienen los modelos de visión-lenguaje modelos del mundo interno? Hacia una evaluación atómica

Created by
  • Haebom

Autor

Qiyue Gao, Xinyu Pi, Kevin Liu, Junrong Chen, Ruolan Yang, Xinqi Huang, Qin, Zhiting Hu

Describir

Este artículo tiene como objetivo evaluar sistemáticamente las capacidades del modelo de mundo interno (WM) de los modelos de visión-lenguaje (VLM) a gran escala de vanguardia. A diferencia de estudios previos que solo presentan limitaciones en capacidades específicas, proponemos un marco de evaluación en dos etapas (percepción y predicción) basado en la psicología comparada y la ciencia cognitiva, y desarrollamos un banco de referencia WM-ABench a gran escala que consta de 23 elementos de evaluación detallados en seis entornos de simulación diferentes. Realizamos 660 experimentos en 15 VLM comerciales y de código abierto de vanguardia, y encontramos limitaciones significativas en sus capacidades básicas de modelado del mundo. Por ejemplo, la mayoría de los modelos muestran una precisión casi aleatoria en la clasificación de trayectorias de movimiento y presentan problemas como la incapacidad de comprender colores y velocidades por separado. Como resultado, revelamos una brecha significativa entre los VLM y el modelado del mundo a nivel humano.

Takeaways, Limitations

Takeaways:
Presentación de un marco de evaluación sistemático y un punto de referencia a gran escala (WM-ABench) para las capacidades de modelado global de los VLM
Revelando empíricamente serias limitaciones en las capacidades fundamentales de modelado del mundo de los VLM modernos
Sugerir direcciones de investigación para mejorar las capacidades de modelado global de los VLM
Limitations:
Los parámetros de referencia actuales se limitan a entornos de simulación. Es necesario evaluarlos con datos reales.
Los resultados pueden variar según el tipo y la versión de los VLM utilizados para la evaluación. Es necesario evaluar modelos más diversos.
La dificultad de definir y medir la capacidad de modelado del mundo a nivel humano
👍