Este artículo propone M$^2$IV, una novedosa técnica de ingeniería de representación para mejorar la eficiencia del aprendizaje contextual multimodal (ICL) en modelos de visión-lenguaje a gran escala (LVLM). Para abordar la naturaleza intensiva en tokens de los ICL convencionales y el complejo problema de inferencia intermodal de pocos disparos, M$^2$IV inyecta directamente vectores multimodales en contexto aprendibles en el flujo residual de los LVLM, en lugar de demostraciones explícitas a nivel de token. Mediante el análisis de las funciones de la atención multicabeza (MHA) y los perceptrones multicapa (MLP), diseñamos una estrategia de entrenamiento que permite la destilación semántica de grano fino y un aprendizaje robusto de la representación intermodal. M$^2$IV mejora el rendimiento en diversas tareas y LVLM, reduciendo significativamente la sobrecarga de tokens y mejorando la escalabilidad a escenarios de múltiples disparos. Además, mejoramos la usabilidad mediante la introducción de VLibrary, que almacena, recupera y utiliza M$^2$IV entrenados. Los resultados experimentales muestran que M$^2$IV supera a las técnicas de ingeniería de representación e ICL existentes, logrando una mejora promedio de la precisión del 3,74 % y una mejora de la eficiencia.