Este artículo es el primero en evaluar las capacidades de respuesta a preguntas de libros de texto (TQA) de los modelos de lenguaje multimodales a gran escala (MLLM) de última generación, LLaVA-1.5 y LLaMA 3.2-Vision, en el conjunto de datos CK12-QA. Para simular un entorno de aprendizaje del mundo real, introducimos un flujo de trabajo de generación aumentada (RAG) de recuperación multimodal que proporciona párrafos e imágenes relevantes de libros de texto como contexto. Los experimentos de disparo cero revelan que el contexto recuperado mejora el rendimiento de las preguntas basadas en texto de LLaVA, mientras que degrada significativamente la precisión de las preguntas basadas en imágenes de LLaMA 3.2-Vision del 74,07 % al 25,93 %, un fenómeno conocido como "interferencia catastrófica del contexto". Los experimentos de ajuste fino demuestran que LLaMA 3.2-Vision mejora el rendimiento mientras que LLaVA lo degrada, lo que demuestra los desafíos de la priorización modal y la integración del contexto en MLLM.