Este artículo presenta un nuevo conjunto de datos de referencia diseñado para evaluar las capacidades de los modelos visuales del lenguaje (VLM) en alemán. A diferencia de los modelos de referencia existentes en inglés, que se basan en preguntas artificialmente difíciles o desacopladas del contexto, este conjunto de datos consta de más de 2000 preguntas abiertas basadas en 486 imágenes tomadas de programas reales de secundaria en nueve asignaturas: matemáticas, historia, biología y religión. Por lo tanto, los modelos deben integrar la interpretación visual y el razonamiento fáctico, en lugar de basarse en pistas textuales superficiales. Evaluamos 13 VLM de vanguardia en diversas dimensiones (precisión específica del dominio, rendimiento en preguntas adversarias, etc.) y descubrimos que incluso los modelos con mejor rendimiento logran una precisión general inferior al 45 %, especialmente en música, matemáticas y entornos adversarios. También demostramos que existe una brecha significativa entre el éxito en los modelos de referencia populares y la comprensión multimodal en el mundo real. En conclusión, las tareas de secundaria proporcionan una forma significativa y poco utilizada de evaluar los VLM, especialmente en entornos de habla no inglesa. Este conjunto de datos y protocolo de evaluación sirven como un banco de pruebas riguroso para comprender y mejorar las capacidades de razonamiento visual y verbal de los futuros sistemas de IA.