この論文では、ドイツ語のビジュアル言語モデル(VLM)の能力を評価するために設計された新しいベンチマークデータセットを紹介します。既存の英語ベースのベンチマークが人為的に困難または文脈から分離された問題に依存するのとは異なり、このデータセットは、数学、歴史、生物学、宗教など、9つの分野の実際の中学校カリキュラムから抜粋した486の画像に基づいて、2,000以上のオープンな質問で構成されています。したがって、モデルは表面的なテキスト手がかりに頼るのではなく、視覚的解釈とリアルな推論を統合する必要があります。 13の最先端VLMをさまざまな側面(ドメイン別の精度、敵対的な質問に対する性能など)で評価した結果、最高の性能モデルでさえ全体の精度が45%未満であり、特に音楽、数学、敵対的な設定で性能が低下していることがわかりました。また、人気のベンチマークでの成功と実際のマルチモード理解の間にかなりの違いがあることを示しています。結論として、中学校レベルの課題は、特に英語以外の環境でVLMをストレステストするための意味があり、活用されていない方法を提供します。このデータセットと評価プロトコルは、将来のAIシステムの視覚的および言語的推論能力をよりよく理解し改善するための厳格なテストベッドとして機能します。