Cet article présente un nouvel ensemble de données de référence conçu pour évaluer les capacités des modèles de langage visuel (MLV) en allemand. Contrairement aux modèles de langage visuel existants, basés sur l'anglais, qui reposent sur des questions artificiellement difficiles ou découplées du contexte, cet ensemble de données comprend plus de 2 000 questions ouvertes basées sur 486 images tirées de programmes réels de collège dans neuf matières : mathématiques, histoire, biologie et religion. Ainsi, les modèles doivent intégrer l'interprétation visuelle et le raisonnement factuel, plutôt que de s'appuyer sur des indices textuels superficiels. Nous évaluons 13 MLL de pointe selon diverses dimensions (précision spécifique au domaine, performance aux questions contradictoires, etc.) et constatons que même les modèles les plus performants atteignent une précision globale inférieure à 45 %, notamment en musique, en mathématiques et dans les situations contradictoires. Nous montrons également qu'il existe un écart significatif entre la réussite aux tests de référence courants et la compréhension multimodale du monde réel. En conclusion, les tâches de niveau collège constituent un moyen pertinent et sous-utilisé de tester les VLM, notamment dans les environnements non anglophones. Cet ensemble de données et ce protocole d'évaluation constituent un banc d'essai rigoureux pour mieux comprendre et améliorer les capacités de raisonnement visuel et verbal des futurs systèmes d'IA.