Este artículo se centra en mejorar las capacidades de aprendizaje multimodal en contexto (MICL) de los modelos lingüísticos multimodales a gran escala (MLLM). Observamos que los MLLM existentes tienen dificultades para aprovechar la información visual y se basan excesivamente en patrones textuales, lo que resulta en una mera imitación textual en lugar de una verdadera adaptación multimodal. Para abordar estos problemas, proponemos la Reasignación Dinámica de la Atención (DARA), una estrategia eficiente de ajuste fino que reequilibra la atención entre los elementos visuales y textuales para dirigir la atención del modelo al contexto visual. Además, proponemos TrueMICL, un conjunto de datos específico para MICL que requiere explícitamente la integración de información multimodal, en particular contenido visual, para la finalización precisa de tareas. Los resultados experimentales demuestran que el método propuesto mejora significativamente las capacidades de aprendizaje multimodal en contexto.