Este artículo se centra en mejorar la capacidad de aprendizaje multimodal en contexto (MICL) de los modelos lingüísticos multimodales a gran escala (MLLM). Señalamos que los MLLM existentes tienden a ignorar la información visual y a depender excesivamente de los patrones textuales, lo que conduce a una simple imitación textual en lugar de una verdadera adaptación multimodal. Para abordar este problema, proponemos la reasignación dinámica de la atención (DARA), una estrategia eficiente de ajuste fino que reequilibra la atención entre los elementos visuales y textuales para inducir al modelo a prestar atención al contexto visual. Además, presentamos TrueMICL, un conjunto de datos específico de MICL que requiere explícitamente la integración de información multimodal, especialmente contenido visual, para la finalización precisa de tareas. Los resultados experimentales demuestran que el método propuesto mejora significativamente la verdadera capacidad de aprendizaje multimodal en contexto.