Cet article se concentre sur l'amélioration des capacités d'apprentissage multimodal contextuel (MICL) des modèles linguistiques multimodaux à grande échelle (MLLM). Nous constatons que les MLLM existants peinent à exploiter l'information visuelle et s'appuient excessivement sur les modèles textuels, ce qui conduit à une simple imitation du texte plutôt qu'à une véritable adaptation multimodale. Pour résoudre ces problèmes, nous proposons la réallocation dynamique de l'attention (DARA), une stratégie efficace de réglage fin qui rééquilibre l'attention entre les éléments visuels et textuels afin de diriger l'attention du modèle vers le contexte visuel. De plus, nous proposons TrueMICL, un jeu de données spécifique aux MICL qui requiert explicitement l'intégration d'informations multimodales, notamment visuelles, pour une réalisation précise des tâches. Les résultats expérimentaux démontrent que la méthode proposée améliore significativement les capacités d'apprentissage multimodal contextuel.