Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

VLM@school - Evaluación de la comprensión de imágenes por IA en el conocimiento de la escuela secundaria alemana

Created by
  • Haebom

Autor

Ren y Peinl, Vincent Tischler

Describir

Este artículo presenta un nuevo conjunto de datos de referencia diseñado para evaluar las capacidades de los modelos visuales del lenguaje (VLM) en alemán. A diferencia de los modelos de referencia existentes en inglés, que se basan en preguntas artificialmente difíciles o desacopladas del contexto, este conjunto de datos consta de más de 2000 preguntas abiertas basadas en 486 imágenes tomadas de programas reales de secundaria en nueve asignaturas: matemáticas, historia, biología y religión. Por lo tanto, los modelos deben integrar la interpretación visual y el razonamiento fáctico, en lugar de basarse en pistas textuales superficiales. Evaluamos 13 VLM de vanguardia en diversas dimensiones (precisión específica del dominio, rendimiento en preguntas adversarias, etc.) y descubrimos que incluso los modelos con mejor rendimiento logran una precisión general inferior al 45 %, especialmente en música, matemáticas y entornos adversarios. También demostramos que existe una brecha significativa entre el éxito en los modelos de referencia populares y la comprensión multimodal en el mundo real. En conclusión, las tareas de secundaria proporcionan una forma significativa y poco utilizada de evaluar los VLM, especialmente en entornos de habla no inglesa. Este conjunto de datos y protocolo de evaluación sirven como un banco de pruebas riguroso para comprender y mejorar las capacidades de razonamiento visual y verbal de los futuros sistemas de IA.

Takeaways, Limitations

Takeaways:
Proporciona un nuevo conjunto de datos de referencia para evaluar VLM en idiomas distintos del inglés, incluido el alemán.
Evaluar la capacidad de los VLM para comprender el mundo real a través de entornos de problemas realistas basados ​​en cursos educativos reales.
Demuestra claramente la brecha entre los puntos de referencia existentes y el rendimiento en el mundo real.
Sugerir direcciones de investigación para mejorar las capacidades de razonamiento visual y verbal de los VLM.
Demostrar que las tareas de nivel secundario son efectivas para poner a prueba el estrés de los VLM.
Limitations:
El conjunto de datos actual se limita al currículo de secundaria alemán. Es necesario ampliarlo a otros idiomas y currículos.
El número de modelos evaluados está limitado a 13. Se necesitan más investigaciones que incluyan modelos más diversos.
Falta de análisis en profundidad de las causas del bajo rendimiento en dominios específicos (música, matemáticas).
Falta de sugerencias específicas sobre cómo mejorar la vulnerabilidad a las preguntas adversarias.
👍