Cet article est le premier à évaluer les capacités de réponse aux questions (TQA) des modèles linguistiques multimodaux à grande échelle (MLLM) de pointe, LLaVA-1.5 et LLaMA 3.2-Vision, sur le jeu de données CK12-QA. Pour simuler un environnement d'apprentissage réel, nous introduisons un pipeline de génération augmentée de récupération multimodale (RAG) qui fournit des paragraphes et des images de manuels pertinents comme contexte. Des expériences sans échantillonnage révèlent que le contexte récupéré améliore les performances des questions textuelles de LLaVA, tandis qu'il dégrade significativement la précision des questions illustrées de LLaMA 3.2-Vision, de 74,07 % à 25,93 %, un phénomène connu sous le nom d'« interférence contextuelle catastrophique ». Des expériences de réglage fin démontrent que LLaMA 3.2-Vision améliore les performances tandis que LLaVA les dégrade, illustrant les défis de la priorisation modale et de l'intégration du contexte dans les MLLM.