Cet article propose M$^2$IV, une nouvelle technique d'ingénierie des représentations visant à améliorer l'efficacité de l'apprentissage contextuel multimodal (ICL) pour les modèles vision-langage à grande échelle (LVLM). Pour répondre à la forte intensité de jetons des ICL conventionnels et au problème complexe de l'inférence intermodale à quelques coups, M$^2$IV injecte directement des vecteurs multimodaux en contexte apprenables dans le flux résiduel des LVLM, au lieu de démonstrations explicites au niveau du jeton. En analysant les rôles de l'attention multi-têtes (MHA) et des perceptrons multicouches (MLP), nous concevons une stratégie d'apprentissage permettant une distillation sémantique fine et un apprentissage robuste des représentations intermodales. M$^2$IV améliore les performances sur diverses tâches et LVLM, réduisant considérablement la surcharge de jetons et améliorant l'évolutivité vers des scénarios multi-coups. De plus, nous améliorons la convivialité en introduisant VLibrary, qui stocke, récupère et utilise les M$^2$IV entraînés. Les résultats expérimentaux montrent que M$^2$IV surpasse l'ICL existant et les techniques d'ingénierie de représentation existantes, obtenant une amélioration moyenne de la précision de 3,74 % et une amélioration de l'efficacité.